[原创]-基于机器学习模型构建双路径模型的理论思考

type

status

date

slug

summary

category

icon

password

Property

Aug 3, 2025 10:24 AM

解决异常数据对模型构建的权重影响

开始学习机器学习快两个月了，在学习Pytorch结构化构建深度学习工程的时候，我突然意识到了一个问题：传统机器学习处理异常数据的方式可改进的问题。

异常数据，其中异常是人为定义的标签，而异常数据本质是指偏离期望的数据。偏离期望的数据产生一定是有特殊的系统步骤造成的，主观可以看出，数据异常就跟误差一样，不可人为消除，因为这是客观存在的事实，他是存在一定概率的，但是按照自然规律法则，任何系统中，任意事件发生的概率一定是大于等于0，但总和概率P一定是1。我们可以根据高斯分布估算出显式事件的发生概率分布，但是不能客观认为这些显式事件的概率和为1，而应该是可观测事件概率+未知事件概率的总和才能为1，而模型能预测的，也就是模型能掌控的范围一定满足： P可观测 = 1 - P不可观测的未知事件发生的概率

因此，基于此，我们基于此理论来构建模型可以得出结论：

传统机器学习构建的模型是基于可观测的事件产生的数据构建的，但是未知事件是无法观测的。我们期望的是根据正确的数据去预测一个正确的模型，本身这件事就是不合理的。我们应该是将任意事件产生的数据都纳入到模型的构建过程中去，也就是说我们构建出来的模型应该是需要符合满足事件概率总和为1的。

目前所构建的模型是基于人为干预的数据处理之后，构建的倾向性明显的模型。因为异常数据在数据处理的时候被人为处理掉了。我认为理想的模型应该是能处理任何数据的收入。因此，我认为可以基于机器学习模型来构建双路径模型。

异常数据本质是远离期望的数据，这部分数据根据数据定义可以很好的剥离原始数据，按照类似于逻辑回归的方式，我们将这种远离期望的数据，单独作为一个系统属性特征去看待，而非直接移除：