Data Mining Review
Data Mining 课程复习笔记 笔记目录 认识数据 数据预处理 朴素贝叶斯分类器 决策树分类 基于规则的分类 回归算法 支持向量机 SVM 模型的评价 这里只记载一些重要的知识点 or 需要死记硬背的定义(sad) 这篇笔记中夹杂了许多个人学习时的吐槽,希望可以缓解诸位的背书负担 🎩 附录: 错题大赏会 考试回忆录 认识数据 这一节非常无趣且都是死记硬背的知识点,主要由以下几部分组成: 基本概念 | 数据统计的方法 | 相似性度量 |数据可视化| 复习小巧思 part one 数据的基本概念 一句话总结: 数据(总体) > 数据对象(比如一张统计表) > 数据元素(表中的列) > 数据项(每列的具体值) 数据属性 阅读参考书目,感觉这里的数据属性指的是机器学习中数据的特征(比如Titanic数据集中的Age、Sex等) 比较搞人的是这里对数据属性也进行了分类,分为四种 标称属性:感觉这里指的是对数据的命名,比如 fanqi 养的六只猫需要六个不同的名字来区分 二元属性:只有两种取值的标称属性 序数属性:比如大中小,但是不知道大究竟是多少(定性分析) 数值属性:分成区间标度(我身高 180cm 比他高 2 cm)和比率标度(我跑步10km/h 比他快一倍) ‼️ 定性属性:标称 & 序数 定量属性:区间 & 比率 part two - 数据统计的基本方法 标准差 $\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2}$ ...