Deep Learning Review

目录 线性分类器 正则化与优化 神经网络与反向传播 卷积神经网络 复习笔记只记录一些重点内容和需要记住的公式 考试回忆 01线性分类器 线性分类器:非常重要的概念——低维不可分但是高维可分 也是由于上面的特质使得线性分类器一般作为深度神经网络的最后一层 😼 图像分类任务 图像分类任务的困难——语义鸿沟(semantic gap):人眼看到的图像和机器处理的输入数据之间存在巨大的差异 挑战:视角差异、形变、光照变化、类内差异、杂乱的背景、类间混淆、遮挡、环境干扰 KNN 记住所有数据和标签,将测试图像预测为与其最相似的训练图像的标签 对于 1 近邻的情况,存在的问题是无法处理离群点 而多近邻的情况,会出现空白区域问题 不可以直接使用像素之间的距离作为度量标准,不具备鲁棒性! 线性分类器 SVM 的损失函数可以表示为 $$ L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + \Delta) \quad (\text{PPT中 } \Delta = 1) $$ $Q_1$: 损失函数的最大值可以逼近正无穷,最小值为0 $Q_2$: 如果将 Loss 中的 sum 换成 mean,那么新损失函数的值会等缩小,从而减小梯度 $Q_3$: 如果将每一个样本的损失函数替换成 $$ L_i = \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + \Delta)^2 $$ 那么新损失函数会对错误分类的样本有更大的惩罚力度 ...

December 28, 2025 · 6 min

Data Mining Review

Data Mining 课程复习笔记 笔记目录 认识数据 数据预处理 朴素贝叶斯分类器 决策树分类 基于规则的分类 回归算法 支持向量机 SVM 模型的评价 这里只记载一些重要的知识点 or 需要死记硬背的定义(sad) 这篇笔记中夹杂了许多个人学习时的吐槽,希望可以缓解诸位的背书负担 🎩 附录: 错题大赏会 考试回忆录 认识数据 这一节非常无趣且都是死记硬背的知识点,主要由以下几部分组成: 基本概念 | 数据统计的方法 | 相似性度量 |数据可视化| 复习小巧思 part one 数据的基本概念 一句话总结: 数据(总体) > 数据对象(比如一张统计表) > 数据元素(表中的列) > 数据项(每列的具体值) 数据属性 阅读参考书目,感觉这里的数据属性指的是机器学习中数据的特征(比如Titanic数据集中的Age、Sex等) 比较搞人的是这里对数据属性也进行了分类,分为四种 标称属性:感觉这里指的是对数据的命名,比如 fanqi 养的六只猫需要六个不同的名字来区分 二元属性:只有两种取值的标称属性 序数属性:比如大中小,但是不知道大究竟是多少(定性分析) 数值属性:分成区间标度(我身高 180cm 比他高 2 cm)和比率标度(我跑步10km/h 比他快一倍) ‼️ 定性属性:标称 & 序数 定量属性:区间 & 比率 part two - 数据统计的基本方法 标准差 $\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2}$ ...

December 27, 2025 · 9 min