type
status
date
slug
summary
tags
category
icon
password
Property
Apr 20, 2025 12:11 PM
学习思考记录

🤔 一点记录

关键词
描述
链接直达
网络日志
阮一峰的网络日志,开阔你的知识面
Hello-Github
开阔你的开源视野
JDK实时动态
JEP特性动态跟踪
常用文档地址:
描述
点击直达
kafka官方文档地址
ES中文文档
maven插件文档地址
这个是Maven的全版本镜像下载地址,速度快~
MySQL官方文档(不要看市面上的那些视频,无法构成知识体系,直接看文档)(当前页面是范围查询优化):
MySQL官方文档(5.7)直接看文档:(当前页面是范围查询优化)
 
这里将会记录我学习的时候的一些草稿笔记,后面会针对性出文章描述介绍…可以自行忽略,我保留草稿是为了让自己记住某些东西…
 
 
 
 
 
 
 
 
 
 
 
机器学习开发流程
数据收集
数据预处理
特征提取
哑编码 1-of-k
TF IDF 词袋法 Bot算法
正则化 标准化(去量纲化 消除差异)
连续数据离散化 离散数据连续化
模型构建
模型评估
投入使用
迭代优化
整合升级
 
 
看拟合性
 
knn
y值连续 回归 y值离散 分类
 
“回归”(Regression)一词最早源于19世纪英国统计学家弗朗西斯·高尔顿(Francis Galton)的研究。他在研究父子身高关系时发现:
  • 高个子父亲的儿子们平均比父亲矮;
  • 矮个子父亲的儿子们平均比父亲高;
  • 整体趋势向均值“回归”。
这种现象被称为“回归效应”(Regression to the Mean),即极端值在后代中会向平均值靠拢。高尔顿用数学方法(线性拟合)描述了这一关系,提出了“回归分析”

5. 为什么逻辑回归叫“回归”却用于分类?

逻辑回归(Logistic Regression)虽然名字带“回归”,但实际是分类模型,原因如下:
  1. 历史命名:它使用了回归的数学形式(线性组合 + Sigmoid函数)。
  1. 输出连续值:预测的是概率(如 P(y=1∣x)),再通过阈值(如0.5)转为类别。
  1. 与线性回归对比
      • 线性回归:y=wTx+b(输出连续值)
      • 逻辑回归:P(y=1)=1/(1+e−(wTx+b)1)(输出概率)
 
向量距离计算
 
欧几里得距离
正余弦求解
notion image
 
k值比较小,容易过拟合
k值比较大,容易欠拟合
数学中讲究缩放,所以k值的选择要根据实际情况缩放
 
平均值法则
 
加权平均值法则
 
 
  • 余弦相似度/距离:衡量向量方向差异,适合高维稀疏数据(如NLP、推荐系统)。
  • 正弦距离:较少使用,可衡量正交性。
  • 欧氏距离:衡量绝对空间距离,适合低维稠密数据(如坐标、物理测量)。
  • 关键区别:余弦度量忽略长度,欧氏度量同时考虑长度和方向。
 
 
特征标准化的作用是:屏蔽量纲之间的差异性,也叫做去量钢化
 
基础知识之 KD-Tree
 
这里是在二维特征空间,横纵坐标都是表示特征
 
取特征矩阵中,方差较大的特征列,取数据中位数,划分kd-tree
 
在sciki-learn中所有的分类器,默认计算的分数数值代表的是准确率
 
基于Py或者Java实现KNN算法模型
 
 
线性回归
线性回归定义、原理
正则化
Lasso算法 Ridge算法
回归算法是一种有监督的算法。
 
 
最小二乘法
n元2次方程
theta θ0 θ1
 
极大似然估计 似然函数
联合概率
 
 
💡
欢迎您在底部评论区留言,一起交流~
Loading...
fntp
fntp
多一点兴趣,少一点功利
最新发布
机器学习基础篇(一):机器学习概论
2025-4-25
机器学习入门篇:数学的基础要求
2025-4-17
JUC核心篇(七):线程池底层原理
2025-2-26
JUC核心篇(六):阻塞队列
2025-2-24
JUC核心篇(四):CAS与AQS
2025-2-22
JUC技术篇(六):Volatile关键字
2025-2-21
公告
📝 博客只为了记录我的学习生涯
😎 我的学习目标是成为一名极客
🤖 我热爱开源当然我也拥抱开源
💌 我期待能收到你的Email留言
📧 我的邮箱:stickpoint@163.com
欢迎交流~