Notes

Reinforcement Learning 基础

汇总了本人学习 RL 过程所做的笔记，前面几篇还是古法炮制，但是越往后就越依赖 AI 辅助（比我手打 Latex 快多了），所以后续的笔记可能会有点“奇怪” 😼 笔记目录 Value Based Methods Policy Based Methods 这里缺了 DPG 的部分 Deep RL Algorithms Offline Reinforcement Learning 下面是多智能体部分的简单汇总 Multi-Agent Reinforcement Learning

NLP 期末复习概览

复习笔记概览包含 NLP 的基本概念介绍以及其他笔记的目录索引笔记目录基于规则方法的自然语言处理文本分类基本概念 $$ \text{NLP} \rightarrow \text{CL} \rightarrow \text{NLU} $$三种不同的语系：屈折语：通过词形变化来表达语法关系，如英语、德语等黏着语：通过词缀来表达语法关系，如日语、韩语等孤立语：词形不变，语法关系通过词序和虚词来表达，如汉语、越南语等 MT 发展历程 1950s前: 基于模版的 MT 1960s-1990s: 基于规则的 MT （规则、词典、算法） 1990s-2013s: 基于统计的 MT （语料、特征、模型） 2013s-现在: 基于神经网络的 MT （语料、模型） NLP 研究内容可以划分成四种类别分类：文本分类、情感分类、文本匹配、文本蕴含序列标注：中文分词、词性标注、信息抽取、槽位填充生成：机器翻译、文本摘要、风格迁移、自动问答、对话系统结构预测：序列分割、句子分割、段落分割、句法分析 NLP 研究基本问题问题一：形态学 Morphology，研究词如何由词素组成问题二：句法学 Syntax，研究词如何组合成句子问题三：语义学 Semantics，研究句子如何表达意义问题四：语用学 Pragmatics，研究句子如何在上下文中使用问题五：语音学 Phonetics，研究语言的声音系统 NLP 研究困难：歧义 ambiguity 存在词法歧义、词性歧义、结构歧义、语义歧义、语音歧义 Catalan Number：$C_n = \frac{1}{n+1}\binom{2n}{n} = \frac{(2n)!}{(n+1)!n!}$ 一个包含 N 个成分的句子（N-1 个介词短语），它可能的组合数为 $C_{N-1}$ 统计机器翻译 ...

PRCV 期末复习笔记

PRCV 期末复习笔记章节目录： () 2D-图像变换单应性变换 2D-图像变换对于图像的变换操作一共可以分成两类：Filtering 和 Warping，前者修改图像像素值，后者改变图像的空间结构，本节内容主要围绕 2D geometric transformation 展开 Warping 定义如下： $$(x,y) \to (x',y')$$齐次坐标（heterogeneous coordinate）齐次坐标的定义很简单: $$ \begin{bmatrix}x\\ y\\ w\end{bmatrix} = \begin{bmatrix} \frac{x}{w}\\ \frac{y}{w} \end{bmatrix} $$ 所有满足齐次关系的点都表示二维坐标中的同一个点，在引入了第三维度后，我们可以将所有常见的图像变换方式表示为矩阵乘法仿射变换（affine transform） $$ \begin{bmatrix}x'\\ y'\\ 1\end{bmatrix} = \begin{bmatrix}a & b & t_x\\ c & d & t_y\\ 0 & 0 & 1\end{bmatrix} \begin{bmatrix}x\\ y\\ 1\end{bmatrix} $$展开为 $$ \begin{aligned} x' &= ax + by + t_x \\ y' &= cx + dy + t_y \end{aligned} $$仿射变换可以包含：非均匀缩放、旋转、平移、剪切 ...

Computational Biology Final Project

Computational Biology: protein sequence 这一领域的研究，思想很简单，就是研究者们认为蛋白质的氨基酸序列中包含了这个蛋白质的结构与功能信息，因此可以通过分析蛋白质的氨基酸序列来预测蛋白质的结构与功能 Protein language models 目录： Unified rational protein engineering with sequence-based deep representation learning Biological Structure and Function Emerge from Scaling Unsupervised Learning to 250 Million Protein Sequences Language models of protein sequences at the scale of evolution enable accurate structure prediction Unified rational protein engineering with sequence-based deep representation learning 2019 年的一篇文章，在 UniRef 50 数据集上使用 RNN + Cross Entropy 进行训练，最终得到的 Token 表示是对所有层的输出取平均得到，训练时使用 self supervised learning 的方式，训练目标是预测下一个 token 的概率分布 ...

Vlm in Games

目录 Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning 论文链接文章最有意思的地方在于 VLM 可以同时输出多个动作决策，这就可以用来解决 Zelda 环境中需要一次执行两个动作才能解决特定任务的情形了（而且因为单帧输入后状态几乎没有改变，所以他们也加入了动作循环，来让模型在连续的帧中执行同样的动作）这篇研究的背景知识是 POMDP（部分可观测马尔可夫决策过程） $$\begin{aligned} POMDP &= \langle S, A, T, R, \Omega, O, \gamma \rangle \\ s_{t+1} &\sim T(s_{t+1} | s_t, a_t) \\ a_t &= \pi(o_t) \\ r_t &= R(s_t, a_t) \\ o_t &\sim O(o_t | s_t) \\ \text{Goal} &= \max_\pi \mathbb{E_{\pi}} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] \end{aligned}$$对于 VLM 模型的 finetuning，这篇论文发现用 Critic free 的 RL 方法在 Super Mario 游戏中训练效果不稳定（没给出有信服力的解释） ...

26 Movie List

2026 Movie List 这里是 crazybread 的 2026 电影清单，内容持续更新中目录《世界的主人》《花束般的恋爱》《给阿嬷的情书》《小偷家族》《出租车司机》《酒精计划》《生化危机》《康斯坦丁》《龙虾》《Her》《小黄人与大怪兽》《关于约会的一切》《千与千寻》《喜鹊谋杀案》《魔鬼代言人》《穆赫兰道》《机器人总动员》电影清单 5月之前看过电影有很多，也看了不少动漫作品，就不再赘述了，这里主要记录一下5月以来看的电影世界的主人上映时间: 2025 观影时间: 2026.5.10 这部电影说来也巧，是在逛电影网站时刷到的，刚开始看的时候完全不知道主题和剧情走向，但是很快就被剧情吸引了，哇，从来没有看过从这个角度切入的电影，太震撼了，简直是平地起惊雷… 如果再做详细的评价会涉及到剧透（对于这部作品的观影体验应该会造成很大的影响），总之就是十分推荐评分 9/10 花束般的恋爱上映时间: 2021 观影时间: 2026.5.16 这部电影我很喜欢，应该会在回家后用大屏幕二刷，故事很像《爱乐之城》，不过更符合亚洲文化背景，青春期的恋爱不就像花束一样嘛，短暂但是无比美好。很难用文字转述这部电影带给人的感觉，所以非常推荐亲自看一遍这部电影，绝对不会失望评分 9/10 给阿嬷的情书上映时间: 2026.4.30 观影时间: 2026.5.20 很好看的一部电影，看完更能感受到书信的魅力，在之前通信不便利的时代中，书信所承载的情感价值是无法估量的。这部电影的情节设计真的很巧妙，我去的场次人不是很多，但是到故事的后半段还是有很多人感动到流泪，总体而言是一部相当好看的地方民俗电影，两个小时讲述一个温馨的成人童话最受触动的一封信，它出现在了故事中最合适的位置 “行船入夜，恰江上升明月，圆如玉坠，仿若身在故乡，似与你并肩共赏。江海万里，心中念你，便不觉遥远。湄南河畔木棉花盛开，像极了家乡的春天，压了一朵在信中，望你也能闻到花香” 评分 7/10 （主要原因是因为电影性不足，太过于依赖文本魅力了）小偷家族上映时间: 2018 观影时间: 2026.7.7 “生老病死就是这样” 评分 9/10 出租车司机上映时间: 2017 观影时间: 2026.7.8 直接搜索出租车司机的话，大概率是朱迪福斯特参演的 1976 年的电影，当然那一部也十分好看，而且感兴趣的话也可以去了解里根刺杀事件（跟这部电影脱不了干系哈哈），不过这里提到的出租车司机则是 2017 年上映的韩国电影，围绕的还是光州民主起义的事件，电影对剧情和人物的塑造都很成功，而且敢于直面自己国家过去的黑暗真的很令人敬佩 ...

26 Reading List

我的 2026 阅读记录，内容持续更新中目录目录的顺序仅表示阅读的先后《断头王后》《炎拳》《嫌疑人X的献身》《流俗地》《金色梦乡》《蛙》《第十三位陪审员》《敲响密室之门》《红房间》《挽救计划》《罗杰疑案》《青铜时代》《海边的卡夫卡》《哈萨比斯传记》《第三帝国三部曲》《被嫌弃的松子的一生》《在轮下》《伦敦最后一家书店》《索拉里斯星》《相约星期二》《一只特立独行的猪》《动物园》《美丽新世界》《照护》阅读清单断头王后作者茨威格是我非常喜欢的传记作家，这本书很有意思的地方在于它是从玛丽王后的视角出发，自她的童年讲起，用细腻的笔触描绘了她是如何从一位奥地利公主一步步走到了大革命的风暴中心，又是如何被历史裹挟着走向毁灭的。书中对玛丽·安托瓦内特的性格刻画非常生动，既有作为一个普通女人的柔情与渴望，也有作为一个王后的骄傲与无奈。她并非历史上那个只会挥霍无度的“断头王后”，而是一个复杂而真实的人物，只不过被推到时代的最中心而已。在阅读这本书之前，我一直以为巴士底狱被攻占后国民议会立即就处死了路易十六和王后，法国大革命基本告一段落。可是在阅读完这本书后才发现，法国大革命并不是历史课本中讲述的那么简单，路易十六与王后在被推翻后经历了漫长的囚禁与审判，在多种因素的影响下才最终被人民送到上了断头台（而且路易十六要比王后早被处死几个月）个人评价 ⭐⭐⭐ 炎拳寒假里一口气看完了8卷，非常过瘾，读完后的第一感觉就是藤本树真是个天才！如果最近没什么想看的书，那不妨试试《炎拳》吧，绝对物超所值个人评价 ⭐⭐⭐⭐⭐ 嫌疑人X的献身小时候看过翻拍的电影，闲来无事就把原著小说也补上了，中规中矩，不难看但也没什么特别的地方个人评价 ⭐⭐⭐ 流俗地在豆瓣上偶然刷到的，被高达 9.2 的评分吸引，于是就买来读，诶！非常不错的一本书啊！作者是黎紫苏，马来西亚华人，我没有读过她的其他作品，但就《流俗地》这本来说，作者的功底可谓是相当扎实。整本书讲述了盲女银霞的日常生活，而且采用的非线性叙事，虽然是由许多细碎的小故事组成的，但在阅读过程中，所有的故事都可以串联起来，形成完成的叙事结构。在阅读这本书的期间也一直在循环张玮玮的《白银饭店》，不得不说这两者莫名的契合，都带给人一种平淡但又微微参杂着忧伤的感觉。读的时候切不可着急，只有放松到最自然的状态才是阅读这本书的最佳方法～个人评价 ⭐⭐⭐⭐⭐️ 金色梦乡本来这本书是买《流俗地》时顺便拿来凑单的，结果没想到也是一本相当好看的小说 😼 虽然分类是推理小说，但是不是严肃推理的类型，书中所关注的更多是人与人之间的关系。这本书也不是严格的线性叙事，而是分成了多个碎片从不同视角描写同一段故事。为什么我说它不是严肃推理呢？因为这本书在一开始就把故事的结果摆出来了哈哈！但这本书的魅力恰恰也在与此，正是因为已经把结尾放在了开端，所以整本书反而不会向别的推理小说一样努力构造各种悬念充当钩子，而是把所有的重点都放在了讲故事上。虽然结尾早已知晓，但是仍会被故事中描述的人与人间亲密的关系所打动。个人评价 ⭐⭐⭐⭐ 蛙第一次接触莫言的作品，怎么说呢，感觉可以和《人生》、《兄弟》这类作品放一起，都是讲述文革那个特殊年代的故事，风格也很接近，但是在阅读的过程中没有多少共鸣，我觉得这个有两方面原因，一是文革的年代离我太过久远，二则因为这本书也和别的作品一样，描述的都是同一种角度的文革个人评价 ⭐⭐⭐ 第十三位陪审员在微信读书上偶然发现，正好书币足够就顺手买下来了，是一本以陪审法庭为核心开展的悬疑小说，作者自己有当辩护律师的经验所以对细节的刻画相当不错，虽然一些情节相当俗套但是总的阅读体验还可以 ...

Fourier Transform

前情回顾：信号与系统基础 | LTI系统 | 傅里叶级数终于，我们迎来了信号处理这门课的第一个大 BOSS —— 傅里叶变换！让我们一步步击溃这个可怕的魔王吧 😤 目录前言连续时间傅里叶变换收敛性常见信号的傅里叶变换周期信号的傅里叶变换傅里叶变换的性质卷积 & 相乘线性常系数微分方程离散时间傅里叶变换收敛性周期信号的傅里叶变换离散时间傅里叶变换的性质卷积 & 相乘对偶性前言在上一节中，我们逐步撕开了傅里叶级数的神秘面纱，那么傅里叶变换有是个什么东西呢，在介绍傅里叶变换之前，我们先来研究一个非常有趣的例子现在我们手头有一个周期为 T，宽度为 $2T_1$ 矩形信号的傅里叶级数系数为 $$ a_k = \frac{2}{k \omega_0 T} \sin\left( k \omega_0 T_1 \right) $$当逐步增大周期 T 的值时，会发现 $a_k$ 越来越小，且系数之间的间隔 $\omega_0$ 也越来越小我们不妨采用一种新的表示形式，并且 $k \omega_0 \to w$ $$ T a_k = \frac{2}{\omega} \sin\left(\omega T_1 \right) = X(j \omega) $$当 $\lim_{T \to \infty}$ 时， $\omega$ 就从离散变量便成了连续变量 ...

Deep Learning Review

目录线性分类器正则化与优化神经网络与反向传播卷积神经网络复习笔记只记录一些重点内容和需要记住的公式考试回忆 01线性分类器线性分类器：非常重要的概念——低维不可分但是高维可分也是由于上面的特质使得线性分类器一般作为深度神经网络的最后一层 😼 图像分类任务图像分类任务的困难——语义鸿沟（semantic gap）：人眼看到的图像和机器处理的输入数据之间存在巨大的差异挑战：视角差异、形变、光照变化、类内差异、杂乱的背景、类间混淆、遮挡、环境干扰 KNN 记住所有数据和标签，将测试图像预测为与其最相似的训练图像的标签对于 1 近邻的情况，存在的问题是无法处理离群点而多近邻的情况，会出现空白区域问题不可以直接使用像素之间的距离作为度量标准，不具备鲁棒性！线性分类器 SVM 的损失函数可以表示为 $$ L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + \Delta) \quad (\text{PPT中 } \Delta = 1) $$ $Q_1$: 损失函数的最大值可以逼近正无穷，最小值为0 $Q_2$: 如果将 Loss 中的 sum 换成 mean，那么新损失函数的值会等缩小，从而减小梯度 $Q_3$: 如果将每一个样本的损失函数替换成 $$ L_i = \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + \Delta)^2 $$ 那么新损失函数会对错误分类的样本有更大的惩罚力度 ...

Data Mining Review

Data Mining 课程复习笔记笔记目录认识数据数据预处理朴素贝叶斯分类器决策树分类基于规则的分类回归算法支持向量机 SVM 模型的评价这里只记载一些重要的知识点 or 需要死记硬背的定义（sad）这篇笔记中夹杂了许多个人学习时的吐槽，希望可以缓解诸位的背书负担 🎩 附录：错题大赏会考试回忆录认识数据这一节非常无趣且都是死记硬背的知识点，主要由以下几部分组成：基本概念 | 数据统计的方法 | 相似性度量｜数据可视化｜复习小巧思 part one 数据的基本概念一句话总结：数据（总体） > 数据对象（比如一张统计表） > 数据元素（表中的列） > 数据项（每列的具体值）数据属性阅读参考书目，感觉这里的数据属性指的是机器学习中数据的特征（比如Titanic数据集中的Age、Sex等）比较搞人的是这里对数据属性也进行了分类，分为四种标称属性：感觉这里指的是对数据的命名，比如 fanqi 养的六只猫需要六个不同的名字来区分二元属性：只有两种取值的标称属性序数属性：比如大中小，但是不知道大究竟是多少（定性分析）数值属性：分成区间标度（我身高 180cm 比他高 2 cm）和比率标度（我跑步10km/h 比他快一倍） ‼️ 定性属性：标称 & 序数定量属性：区间 & 比率 part two - 数据统计的基本方法标准差 $\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2}$ ...