type
status
date
slug
summary
tags
category
icon
password
Property
Aug 3, 2025 10:24 AM
解决异常数据对模型构建的权重影响
开始学习机器学习快两个月了,在学习Pytorch结构化构建深度学习工程的时候,我突然意识到了一个问题:传统机器学习处理异常数据的方式可改进的问题。
异常数据,其中异常是人为定义的标签,而异常数据本质是指偏离期望的数据。偏离期望的数据产生一定是有特殊的系统步骤造成的,主观可以看出,数据异常就跟误差一样,不可人为消除,因为这是客观存在的事实,他是存在一定概率的,但是按照自然规律法则,任何系统中,任意事件发生的概率一定是大于等于0,但总和概率P一定是1。我们可以根据高斯分布估算出显式事件的发生概率分布,但是不能客观认为这些显式事件的概率和为1,而应该是可观测事件概率+未知事件概率的总和才能为1,而模型能预测的,也就是模型能掌控的范围一定满足:
P可观测 = 1 - P不可观测的未知事件发生的概率
因此,基于此,我们基于此理论来构建模型可以得出结论:
传统机器学习构建的模型是基于可观测的事件产生的数据构建的,但是未知事件是无法观测的。我们期望的是根据正确的数据去预测一个正确的模型,本身这件事就是不合理的。我们应该是将任意事件产生的数据都纳入到模型的构建过程中去,也就是说我们构建出来的模型应该是需要符合满足事件概率总和为1的。
目前所构建的模型是基于人为干预的数据处理之后,构建的倾向性明显的模型。因为异常数据在数据处理的时候被人为处理掉了。我认为理想的模型应该是能处理任何数据的收入。因此,我认为可以基于机器学习模型来构建双路径模型。
异常数据本质是远离期望的数据,这部分数据根据数据定义可以很好的剥离原始数据,按照类似于逻辑回归的方式,我们将这种远离期望的数据,单独作为一个系统属性特征去看待,而非直接移除:

- 异常检测器:轻量化实时模块,可选用:
- 自编码器重构误差(计算输入与重建的差异)
- 孤立森林(Isolation Forest):高效分离异常点
- 未知特征分支:设计为低复杂度子网络(如1-2层全连接),施加强正则化(Dropout >0.5)防止过拟合。
- 融合层:使用门控注意力机制(如Softmax门控)平衡两路输出权重。
损失函数部分:
- 主分支损失:常规任务损失(如交叉熵、均方误差)。
- 未知分支损失:低权重辅助损失(如稀疏约束损失:Lunknown=λ∥Wu∥1,其中 λ≪1)。
- 总损失:L=Lmain+λLunknown。
模型训练策略:
- 分阶段训练:先预训练主分支,再冻结主分支参数,训练未知分支。
- 动态阈值调整:根据验证集性能自动调整异常检测阈值(如用贝叶斯优化)
商业化理论实践:
可通过数据蒸馏来提升模型的性能,未知分支采用二值神经网络(BNN)减少计算量。
- 作者:fntp
- 链接:https://polofox.com/article/ml-chuangxin
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章