type
status
date
slug
summary
tags
category
icon
password
Property
Aug 3, 2025 10:24 AM
解决异常数据对模型构建的权重影响
 
开始学习机器学习快两个月了,在学习Pytorch结构化构建深度学习工程的时候,我突然意识到了一个问题:传统机器学习处理异常数据的方式可改进的问题。
 
异常数据,其中异常是人为定义的标签,而异常数据本质是指偏离期望的数据。偏离期望的数据产生一定是有特殊的系统步骤造成的,主观可以看出,数据异常就跟误差一样,不可人为消除,因为这是客观存在的事实,他是存在一定概率的,但是按照自然规律法则,任何系统中,任意事件发生的概率一定是大于等于0,但总和概率P一定是1。我们可以根据高斯分布估算出显式事件的发生概率分布,但是不能客观认为这些显式事件的概率和为1,而应该是可观测事件概率+未知事件概率的总和才能为1,而模型能预测的,也就是模型能掌控的范围一定满足: P可观测 = 1 - P不可观测的未知事件发生的概率
因此,基于此,我们基于此理论来构建模型可以得出结论:
传统机器学习构建的模型是基于可观测的事件产生的数据构建的,但是未知事件是无法观测的。我们期望的是根据正确的数据去预测一个正确的模型,本身这件事就是不合理的。我们应该是将任意事件产生的数据都纳入到模型的构建过程中去,也就是说我们构建出来的模型应该是需要符合满足事件概率总和为1的。
 
目前所构建的模型是基于人为干预的数据处理之后,构建的倾向性明显的模型。因为异常数据在数据处理的时候被人为处理掉了。我认为理想的模型应该是能处理任何数据的收入。因此,我认为可以基于机器学习模型来构建双路径模型
 
异常数据本质是远离期望的数据,这部分数据根据数据定义可以很好的剥离原始数据,按照类似于逻辑回归的方式,我们将这种远离期望的数据,单独作为一个系统属性特征去看待,而非直接移除:
notion image
  • 异常检测器:轻量化实时模块,可选用:
    • 自编码器重构误差(计算输入与重建的差异)
    • 孤立森林(Isolation Forest):高效分离异常点
  • 未知特征分支:设计为低复杂度子网络(如1-2层全连接),施加强正则化(Dropout >0.5)防止过拟合。
  • 融合层:使用门控注意力机制(如Softmax门控)平衡两路输出权重。
 
损失函数部分:
  • 主分支损失:常规任务损失(如交叉熵、均方误差)。
  • 未知分支损失:低权重辅助损失(如稀疏约束损失:Lunknown=λWu∥1,其中 λ≪1)。
  • 总损失:L=Lmain+λLunknown
 
模型训练策略:
  • 分阶段训练:先预训练主分支,再冻结主分支参数,训练未知分支。
  • 动态阈值调整:根据验证集性能自动调整异常检测阈值(如用贝叶斯优化)
 
商业化理论实践:
可通过数据蒸馏来提升模型的性能,未知分支采用二值神经网络(BNN)减少计算量。
相关文章
JUC基础篇(一):你一定要知晓的ThreadLcoal
Lazy loaded image
Linux内核相关知识整理记录
Lazy loaded image
机器学习入门篇:数学的基础要求
Lazy loaded image
机器学习基础篇(一):机器学习概论
Lazy loaded image
机器学习基础篇(三):线性回归算法
Lazy loaded image
机器学习基础篇(四):数学知识概要
Lazy loaded image
机器学习基础篇(八):AI架构计算机视觉(一):深度学习的人脸应用
Loading...
fntp
fntp
多一点兴趣,少一点功利
最新发布
[原创]-基于机器学习模型构建双路径模型的理论思考
2025-8-3
机器学习基础篇(八):AI架构
2025-7-17
机器学习入门篇:数学的基础要求
2025-7-17
机器学习基础篇(一):机器学习概论
2025-7-17
机器学习基础篇(三):线性回归算法
2025-7-17
机器学习基础篇(四):数学知识概要
2025-7-17
公告
📝 博客只为了记录我的学习生涯
😎 我的学习目标是成为一名极客
🤖 我热爱开源当然我也拥抱开源
💌 我期待能收到你的Email留言
📧 我的邮箱:stickpoint@163.com
欢迎交流~