type
status
date
slug
summary
tags
category
icon
password
Property
Jun 29, 2025 11:21 AM
离散属性 vs 连续属性的定义
属性类型 | 定义 | 示例 |
离散属性 | 取值有限且可枚举(通常是整数或固定类别) | - 颜色:红/蓝/绿- 性别:男/女 |
连续属性 | 取值无限且不可枚举(通常为实数,可无限细分) | - 温度:36.5°C- 收入:5.3万元 |
2. “对立性质”与离散性的关系
“对立性质”可指二元属性(Binary),这是离散属性的特例:
- 二元属性:只有两个互斥取值(是/否、真/假),天然具有对立性。
- 多类别离散属性:如颜色(红/蓝/绿),虽无严格对立性,但仍为离散属性。
关键修正:
- 对立性(如二元属性)是离散属性的子集,但离散属性不一定需要对立性。
- 连续性由数值的可分性决定,与对立性无关。
3. 如何科学判断属性类型?
(1) 业务逻辑优先
- 离散:即使数值化(如学历:1=小学, 2=中学),若不可运算(小学+中学≠大学),则为离散。
- 连续:若数值可参与数学运算(如年龄、温度),则为连续。
(2) 数学检验方法
(3) 模型处理需求
- 树模型(如C4.5)可直接处理离散属性。
- 神经网络需对离散属性编码(如One-Hot)。
4. 特殊案例辨析
属性 | 类型 | 原因 |
邮政编码 | 离散 | 数值无大小意义(100080 ≠ 100060 + 20) |
年份 | 离散或连续 | 若表示类别(如2020/2021)→ 离散;若计算时间差(2021-2020=1)→ 连续 |
评分(1~5星) | 离散 | 虽有序,但不可无限细分(如4.3星无意义) |
5. 实际应用建议
- 预处理策略:
- 离散属性 → 哑编码(One-Hot)或嵌入(Embedding)。
- 连续属性 → 标准化(StandardScaler)或分箱(Binning)。
- 业务沟通:
- 与领域专家确认属性的可计算性(如“客户等级”看似数值,实为离散标签)。
总结
- 对立性(如二元属性)仅是离散属性的一个子集,不能作为划分离散/连续的普适标准。
- 核心判断依据:属性的取值是否可枚举、是否支持数学运算。
- 模型适配:根据类型选择预处理方法,避免因误判导致性能下降。
分数
连续数据可以进行离散化(分组化)
离散数据可以进行连续化(分值化)
线性回归
极大似然估计
极大似然估计(Maximum Likelihood Estimation, MLE)是一种统计方法,用于通过观测数据估计概率模型的参数。其核心思想是选择使观测数据出现概率最大的参数值作为估计值。
核心概念
- 似然函数(Likelihood Function):
- 给定参数 θ 时,观测数据 X 的概率(或概率密度)称为似然函数,记作 L(θ∣X)。
- 对于独立同分布(i.i.d.)数据,似然函数是各数据点概率的乘积:L(θ∣X)=i=1∏nP(xi∣θ)
- 极大似然估计:
- 通过最大化似然函数 L(θ∣X) 找到最优参数 θ^:θ^=argθmaxL(θ∣X)
- 实际计算中常对似然函数取对数(对数似然函数),将乘积转为求和以简化计算:logL(θ∣X)=i=1∑nlogP(xi∣θ)
步骤
- 定义模型:假设数据服从某个概率分布(如正态分布 N(μσ2))。
- 写出似然函数:根据模型和观测数据构建 L(θ∣X)。
- 最大化似然函数:
- 对似然函数求导(或对数似然函数),令导数为零,解方程得到参数估计值。
- 或使用数值优化方法(如梯度下降)。
例子

性质
- 一致性:当样本量增大时,MLE 收敛到真实参数值。
- 渐近正态性:在大样本下,MLE 服从正态分布。
- 不变性:若 θ^ 是 θ 的 MLE,则 g(θ^) 是 g(θ) 的 MLE。
局限性
- 需要明确概率模型假设。
- 可能因模型复杂导致计算困难(需数值优化)。
- 对少量数据可能过拟合。
与最小二乘法的关系
当误差服从正态分布时,最小二乘估计等价于 MLE。
总之,MLE 是统计学中参数估计的经典方法,广泛应用于机器学习、经济学、生物学等领域。
最小二乘法


哲学思想前提:模型是现实的近似,而非完全复制

为什么叫线性回归,因为对于潜在的关系式,θ是未知量,而对于X,则是已知量,因此,只要θ是自变量,并且是一次的,那么就是线性的。
MSE 平均绝对误差
MAE 平均平方误差
梯度是一个向量
截距项
单位矩阵E
复杂度与偏差是模型优良的关键指标。
偏差与方差的概念。
偏差就是真实值与预测值的差值
偏差越大,模型越容易欠拟合;
方差表示的是预测的y值的方差
如果y值方差越大
欠拟合说明模型太简单。
有约束转为无约束
拉格朗日乘值
我认为我们在构建函数的时候,参数theta也会存在损失
约束参数Theta的样本空间
约束在圆内
- 作者:fntp
- 链接:https://polofox.com/article/ml-3
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章