type
status
date
slug
summary
tags
category
icon
password
Property
Jun 29, 2025 11:21 AM

离散属性 vs 连续属性的定义

属性类型
定义
示例
离散属性
取值有限且可枚举(通常是整数或固定类别)
- 颜色:红/蓝/绿- 性别:男/女
连续属性
取值无限且不可枚举(通常为实数,可无限细分)
- 温度:36.5°C- 收入:5.3万元

2. “对立性质”与离散性的关系

“对立性质”可指二元属性(Binary),这是离散属性的特例:
  • 二元属性:只有两个互斥取值(是/否、真/假),天然具有对立性。
    • 多类别离散属性:如颜色(红/蓝/绿),虽无严格对立性,但仍为离散属性。
    关键修正
    • 对立性(如二元属性)是离散属性的子集,但离散属性不一定需要对立性。
    • 连续性由数值的可分性决定,与对立性无关。

    3. 如何科学判断属性类型?

    (1) 业务逻辑优先

    • 离散:即使数值化(如学历:1=小学, 2=中学),若不可运算(小学+中学≠大学),则为离散。
    • 连续:若数值可参与数学运算(如年龄、温度),则为连续。

    (2) 数学检验方法

    (3) 模型处理需求

    • 树模型(如C4.5)可直接处理离散属性。
    • 神经网络需对离散属性编码(如One-Hot)。

    4. 特殊案例辨析

    属性
    类型
    原因
    邮政编码
    离散
    数值无大小意义(100080 ≠ 100060 + 20)
    年份
    离散或连续
    若表示类别(如2020/2021)→ 离散;若计算时间差(2021-2020=1)→ 连续
    评分(1~5星)
    离散
    虽有序,但不可无限细分(如4.3星无意义)

    5. 实际应用建议

    1. 预处理策略
        • 离散属性 → 哑编码(One-Hot)或嵌入(Embedding)。
        • 连续属性 → 标准化(StandardScaler)或分箱(Binning)。
    1. 业务沟通
        • 与领域专家确认属性的可计算性(如“客户等级”看似数值,实为离散标签)。

    总结

    • 对立性(如二元属性)仅是离散属性的一个子集,不能作为划分离散/连续的普适标准。
    • 核心判断依据:属性的取值是否可枚举、是否支持数学运算。
    • 模型适配:根据类型选择预处理方法,避免因误判导致性能下降。
     
     
    分数
    连续数据可以进行离散化(分组化)
    离散数据可以进行连续化(分值化)
     
    线性回归
     
    极大似然估计
    极大似然估计(Maximum Likelihood Estimation, MLE)是一种统计方法,用于通过观测数据估计概率模型的参数。其核心思想是选择使观测数据出现概率最大的参数值作为估计值。

    核心概念

    1. 似然函数(Likelihood Function)
        • 给定参数 θ 时,观测数据 X 的概率(或概率密度)称为似然函数,记作 L(θX)。
        • 对于独立同分布(i.i.d.)数据,似然函数是各数据点概率的乘积:L(θX)=i=1∏nP(xiθ)
    1. 极大似然估计
        • 通过最大化似然函数 L(θX) 找到最优参数 θ^:θ^=argθmaxL(θX)
        • 实际计算中常对似然函数取对数(对数似然函数),将乘积转为求和以简化计算:logL(θX)=i=1∑nlogP(xiθ)

    步骤

    1. 定义模型:假设数据服从某个概率分布(如正态分布 N(μσ2))。
    1. 写出似然函数:根据模型和观测数据构建 L(θX)。
    1. 最大化似然函数
        • 对似然函数求导(或对数似然函数),令导数为零,解方程得到参数估计值。
        • 或使用数值优化方法(如梯度下降)。

    例子

    notion image

    性质

    • 一致性:当样本量增大时,MLE 收敛到真实参数值。
    • 渐近正态性:在大样本下,MLE 服从正态分布。
    • 不变性:若 θ^ 是 θ 的 MLE,则 g(θ^) 是 g(θ) 的 MLE。

    局限性

    • 需要明确概率模型假设。
    • 可能因模型复杂导致计算困难(需数值优化)。
    • 对少量数据可能过拟合。

    与最小二乘法的关系

    当误差服从正态分布时,最小二乘估计等价于 MLE。
    总之,MLE 是统计学中参数估计的经典方法,广泛应用于机器学习、经济学、生物学等领域。
     
    最小二乘法
     
     
     
    notion image
    notion image
     
     
    哲学思想前提:模型是现实的近似,而非完全复制
    notion image
     
     
     
    为什么叫线性回归,因为对于潜在的关系式,θ是未知量,而对于X,则是已知量,因此,只要θ是自变量,并且是一次的,那么就是线性的。
     
     
    MSE 平均绝对误差
    MAE 平均平方误差
     
    梯度是一个向量
     
    截距项
     
    单位矩阵E
     
     
    复杂度与偏差是模型优良的关键指标。
     
     
    偏差与方差的概念。
    偏差就是真实值与预测值的差值
    偏差越大,模型越容易欠拟合;
    方差表示的是预测的y值的方差
    如果y值方差越大
     
     
    欠拟合说明模型太简单。
     
     
    有约束转为无约束
    拉格朗日乘值
     
     
    我认为我们在构建函数的时候,参数theta也会存在损失
    约束参数Theta的样本空间
    约束在圆内
     
    相关文章
    机器学习入门篇:数学的基础要求
    Lazy loaded image
    机器学习基础篇(一):机器学习概论
    Lazy loaded image
    机器学习基础篇(四):数学知识概要
    Lazy loaded image
    机器学习基础篇(五):梯度下降
    Lazy loaded image
    机器学习深入篇(一):探究MSE与MAE的关系与联系
    Lazy loaded image
    机器学习基础篇(十一):决策树算法
    Lazy loaded image
    机器学习基础篇(一):机器学习概论机器学习基础篇(四):数学知识概要
    Loading...
    fntp
    fntp
    多一点兴趣,少一点功利
    最新发布
    开源干货(一):基于OpenCV+JavaFX+Yolo+Seetaface构建人脸识别
    2025-6-30
    Day03:前端页面开发-首页开发
    2025-6-30
    机器学习基础篇(五):梯度下降
    2025-6-30
    机器学习基础篇(十一):决策树算法
    2025-6-30
    机器学习深入篇(四):探究拉格朗日乘数法的应用
    2025-6-30
    机器学习深入篇(一):探究MSE与MAE的关系与联系
    2025-6-30
    公告
    📝 博客只为了记录我的学习生涯
    😎 我的学习目标是成为一名极客
    🤖 我热爱开源当然我也拥抱开源
    💌 我期待能收到你的Email留言
    📧 我的邮箱:stickpoint@163.com
    欢迎交流~