type
status
date
slug
summary
tags
category
icon
password
Property
Apr 20, 2025 12:11 PM
学习思考记录
🤔 一点记录
关键词 | 描述 | 链接直达 |
网络日志 | 阮一峰的网络日志,开阔你的知识面 | |
Hello-Github | 开阔你的开源视野 | |
JDK实时动态 | JEP特性动态跟踪 |
常用文档地址:
描述 | 点击直达 |
kafka官方文档地址 | |
ES中文文档 | |
maven插件文档地址 | |
这个是Maven的全版本镜像下载地址,速度快~ | |
MySQL官方文档(不要看市面上的那些视频,无法构成知识体系,直接看文档)(当前页面是范围查询优化): | |
MySQL官方文档(5.7)直接看文档:(当前页面是范围查询优化) |
这里将会记录我学习的时候的一些草稿笔记,后面会针对性出文章描述介绍…可以自行忽略,我保留草稿是为了让自己记住某些东西…
机器学习开发流程
数据收集
数据预处理
特征提取
哑编码 1-of-k
TF IDF 词袋法 Bot算法
正则化 标准化(去量纲化 消除差异)
连续数据离散化 离散数据连续化
模型构建
模型评估
投入使用
迭代优化
整合升级
看拟合性
knn
y值连续 回归
y值离散 分类
“回归”(Regression)一词最早源于19世纪英国统计学家弗朗西斯·高尔顿(Francis Galton)的研究。他在研究父子身高关系时发现:
- 高个子父亲的儿子们平均比父亲矮;
- 矮个子父亲的儿子们平均比父亲高;
- 整体趋势向均值“回归”。
这种现象被称为“回归效应”(Regression to the Mean),即极端值在后代中会向平均值靠拢。高尔顿用数学方法(线性拟合)描述了这一关系,提出了“回归分析”。
5. 为什么逻辑回归叫“回归”却用于分类?
逻辑回归(Logistic Regression)虽然名字带“回归”,但实际是分类模型,原因如下:
- 历史命名:它使用了回归的数学形式(线性组合 + Sigmoid函数)。
- 输出连续值:预测的是概率(如 P(y=1∣x)),再通过阈值(如0.5)转为类别。
- 与线性回归对比:
- 线性回归:y=wTx+b(输出连续值)
- 逻辑回归:P(y=1)=1/(1+e−(wTx+b)1)(输出概率)
向量距离计算
欧几里得距离
正余弦求解

k值比较小,容易过拟合
k值比较大,容易欠拟合
数学中讲究缩放,所以k值的选择要根据实际情况缩放
平均值法则
加权平均值法则
- 余弦相似度/距离:衡量向量方向差异,适合高维稀疏数据(如NLP、推荐系统)。
- 正弦距离:较少使用,可衡量正交性。
- 欧氏距离:衡量绝对空间距离,适合低维稠密数据(如坐标、物理测量)。
- 关键区别:余弦度量忽略长度,欧氏度量同时考虑长度和方向。
特征标准化的作用是:屏蔽量纲之间的差异性,也叫做去量钢化
基础知识之 KD-Tree
这里是在二维特征空间,横纵坐标都是表示特征
取特征矩阵中,方差较大的特征列,取数据中位数,划分kd-tree
在sciki-learn中所有的分类器,默认计算的分数数值代表的是准确率
基于Py或者Java实现KNN算法模型
线性回归
线性回归定义、原理
正则化
Lasso算法 Ridge算法
回归算法是一种有监督的算法。
最小二乘法
n元2次方程
theta θ0 θ1
极大似然估计 似然函数
联合概率
欢迎您在底部评论区留言,一起交流~