Vlm in Games

目录 Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning 论文链接 文章最有意思的地方在于 VLM 可以同时输出多个动作决策,这就可以用来解决 Zelda 环境中需要一次执行两个动作才能解决特定任务的情形了(而且因为单帧输入后状态几乎没有改变,所以他们也加入了动作循环,来让模型在连续的帧中执行同样的动作) 这篇研究的背景知识是 POMDP(部分可观测马尔可夫决策过程) $$\begin{aligned} POMDP &= \langle S, A, T, R, \Omega, O, \gamma \rangle \\ s_{t+1} &\sim T(s_{t+1} | s_t, a_t) \\ a_t &= \pi(o_t) \\ r_t &= R(s_t, a_t) \\ o_t &\sim O(o_t | s_t) \\ \text{Goal} &= \max_\pi \mathbb{E_{\pi}} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] \end{aligned}$$对于 VLM 模型的 finetuning,这篇论文发现用 Critic free 的 RL 方法在 Super Mario 游戏中训练效果不稳定(没给出有信服力的解释) ...

May 26, 2026 · 1 min

26 Movie List

2026 Movie List 这里是 crazybread 的 2026 电影清单,内容持续更新中 目录 《世界的主人》 《花束般的恋爱》 《给阿嬷的情书》 电影清单 5月之前看过电影有很多,也看了不少动漫作品,就不再赘述了,这里主要记录一下5月以来看的电影 世界的主人 上映时间: 2025 观影时间: 2026.5.10 这部电影说来也巧,是在逛电影网站时刷到的,刚开始看的时候完全不知道主题和剧情走向,但是很快就被剧情吸引了,哇,从来没有看过从这个角度切入的电影,太震撼了,简直是平地起惊雷… 如果再做详细的评价会涉及到剧透(对于这部作品的观影体验应该会造成很大的影响),总之就是十分推荐 评分 9/10 花束般的恋爱 上映时间: 2021 观影时间: 2026.5.16 这部电影我很喜欢,应该会在回家后用大屏幕二刷,故事很像《爱乐之城》,不过更符合亚洲文化背景,青春期的恋爱不就像花束一样嘛,短暂但是无比美好。很难用文字转述这部电影带给人的感觉,所以非常推荐亲自看一遍这部电影,绝对不会失望 评分 9/10 给阿嬷的情书 上映时间: 2026.4.30 观影时间: 2026.5.20 很好看的一部电影,看完更能感受到书信的魅力,在之前通信不便利的时代中,书信所承载的情感价值是无法估量的。这部电影的情节设计真的很巧妙,我去的场次人不是很多,但是到故事的后半段还是有很多人感动到流泪,总体而言是一部相当好看的地方民俗电影,两个小时讲述一个温馨的成人童话 最受触动的一封信,它出现在了故事中最合适的位置 “行船入夜,恰江上升明月,圆如玉坠,仿若身在故乡,似与你并肩共赏。江海万里,心中念你,便不觉遥远。湄南河畔木棉花盛开,像极了家乡的春天,压了一朵在信中,望你也能闻到花香” 评分 8/10 (没给10分的主要原因是因为电影性不足,太过于依赖文本魅力了)

May 19, 2026 · 1 min

26 Reading List

2026 Reading List crazybread 的 2026 阅读清单,内容持续更新中~ 目录 目录的顺序仅表示阅读的先后~ 《断头王后》 《炎拳》 《嫌疑人X的献身》 《流俗地》 《金色梦乡》 《蛙》 《第十三位陪审员》 《敲响密室之门》 《红房间》 《挽救计划》 《罗杰疑案》 《青铜时代》 《海边的卡夫卡》 《哈萨比斯传记》 《第三帝国三部曲》 《被嫌弃的松子的一生》 《在轮下》 《伦敦最后一家书店》 《索拉里斯星》 阅读清单 断头王后 作者茨威格是我非常喜欢的传记作家,这本书很有意思的地方在于它是从玛丽王后的视角出发,自她的童年讲起,用细腻的笔触描绘了她是如何从一位奥地利公主一步步走到了大革命的风暴中心,又是如何被历史裹挟着走向毁灭的。 书中对玛丽·安托瓦内特的性格刻画非常生动,既有作为一个普通女人的柔情与渴望,也有作为一个王后的骄傲与无奈。她并非历史上那个只会挥霍无度的“断头王后”,而是一个复杂而真实的人物,只不过被推到时代的最中心而已。 在阅读这本书之前,我一直以为巴士底狱被攻占后国民议会立即就处死了路易十六和王后,法国大革命基本告一段落。可是在阅读完这本书后才发现,法国大革命并不是历史课本中讲述的那么简单,路易十六与王后在被推翻后经历了漫长的囚禁与审判,在多种因素的影响下才最终被人民送到上了断头台(而且路易十六要比王后早被处死几个月) 个人评价 ⭐⭐⭐ 炎拳 寒假里一口气看完了8卷,非常过瘾,读完后的第一感觉就是藤本树真是个天才! 如果最近没什么想看的书,那不妨试试《炎拳》吧,绝对物超所值 个人评价 ⭐⭐⭐⭐⭐ 嫌疑人X的献身 小时候看过翻拍的电影,闲来无事就把原著小说也补上了,中规中矩,不难看但也没什么特别的地方 个人评价 ⭐⭐⭐ 流俗地 这本书我是在豆瓣上偶然刷到的,被高达 9.2 的评分吸引,于是顺手买来读了起来,结果发现它是非常不错的一本书! 作者是黎紫苏,马来西亚华人,我没有读过她的其他作品,但就《流俗地》这本来说,作者的功底可谓是相当扎实。 整本书讲述了盲女银霞的日常生活,而且采用的非线性叙事,虽然是由许多细碎的小故事组成的,但在阅读过程中,所有的故事都可以串联起来,形成完成的叙事结构。 在阅读这本书的期间也一直在循环 张玮玮 的 《白银饭店》,不得不说这两者莫名的契合,都带给人一种平淡但又微微参杂着忧伤的感觉。 读的时候切不可着急,只有放松到最自然的状态才是阅读这本书的最佳方法~ 个人评价 ⭐⭐⭐⭐⭐️ 金色梦乡 本来这本书是我买《流俗地》时顺便拿来凑单的,结果没想到也是一本相当好看的小说 😼 虽然分类是推理小说,但是不是严肃推理的类型,书中所关注的更多是人与人之间的关系。 这本书也不是严格的线性叙事,而是分成了多个碎片从不同视角描写同一段故事。 为什么我说它不是严肃推理呢?因为这本书在一开始就把故事的结果摆出来了哈哈!但这本书的魅力恰恰也在与此,正是因为已经把结尾放在了开端,所以整本书反而不会向别的推理小说一样努力构造各种悬念充当钩子,而是把所有的重点都放在了讲故事上。虽然结尾早已知晓,但是仍会被故事中描述的人与人间亲密的关系所打动。 个人评价 ⭐⭐⭐⭐ 蛙 第一次接触莫言的作品,怎么说呢,感觉可以和《人生》、《兄弟》这类作品放一起,都是讲述文革那个特殊年代的故事,风格也很接近,但是在阅读的过程中没有多少共鸣,我觉得这个有两方面原因,一是文革的年代离我太过久远,二则因为这本书也和别的作品一样,描述的都是同一种角度的文革 个人评价 ⭐⭐⭐ 第十三位陪审员 在微信读书上偶然发现,正好白嫖的书币足够就顺手买下来读了,是一本以陪审法庭为核心开展的悬疑小说,作者自己有当辩护律师的经验所以对细节的刻画相当不错,虽然一些情节相当俗套但是总的阅读体验还可以 ...

January 13, 2026 · 1 min

Fourier Transform

前情回顾: 信号与系统基础 | LTI系统 | 傅里叶级数 终于,我们迎来了信号处理这门课的第一个大 BOSS —— 傅里叶变换!让我们一步步击溃这个可怕的魔王吧 😤 目录 前言 连续时间傅里叶变换 收敛性 常见信号的傅里叶变换 周期信号的傅里叶变换 傅里叶变换的性质 卷积 & 相乘 线性常系数微分方程 离散时间傅里叶变换 收敛性 周期信号的傅里叶变换 离散时间傅里叶变换的性质 卷积 & 相乘 对偶性 前言 在上一节中,我们逐步撕开了傅里叶级数的神秘面纱,那么傅里叶变换有是个什么东西呢,在介绍傅里叶变换之前,我们先来研究一个非常有趣的例子 现在我们手头有一个周期为 T,宽度为 $2T_1$ 矩形信号的傅里叶级数系数为 $$ a_k = \frac{2}{k \omega_0 T} \sin\left( k \omega_0 T_1 \right) $$当逐步增大周期 T 的值时,会发现 $a_k$ 越来越小,且系数之间的间隔 $\omega_0$ 也越来越小 我们不妨采用一种新的表示形式,并且 $k \omega_0 \to w$ $$ T a_k = \frac{2}{\omega} \sin\left(\omega T_1 \right) = X(j \omega) $$当 $\lim_{T \to \infty}$ 时, $\omega$ 就从离散变量便成了连续变量 ...

December 29, 2025 · 11 min

Deep Learning Review

目录 线性分类器 正则化与优化 神经网络与反向传播 卷积神经网络 复习笔记只记录一些重点内容和需要记住的公式 考试回忆 01线性分类器 线性分类器:非常重要的概念——低维不可分但是高维可分 也是由于上面的特质使得线性分类器一般作为深度神经网络的最后一层 😼 图像分类任务 图像分类任务的困难——语义鸿沟(semantic gap):人眼看到的图像和机器处理的输入数据之间存在巨大的差异 挑战:视角差异、形变、光照变化、类内差异、杂乱的背景、类间混淆、遮挡、环境干扰 KNN 记住所有数据和标签,将测试图像预测为与其最相似的训练图像的标签 对于 1 近邻的情况,存在的问题是无法处理离群点 而多近邻的情况,会出现空白区域问题 不可以直接使用像素之间的距离作为度量标准,不具备鲁棒性! 线性分类器 SVM 的损失函数可以表示为 $$ L = \frac{1}{N} \sum_{i=1}^{N} \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + \Delta) \quad (\text{PPT中 } \Delta = 1) $$ $Q_1$: 损失函数的最大值可以逼近正无穷,最小值为0 $Q_2$: 如果将 Loss 中的 sum 换成 mean,那么新损失函数的值会等缩小,从而减小梯度 $Q_3$: 如果将每一个样本的损失函数替换成 $$ L_i = \sum_{j \neq y_i} \max(0, s_j - s_{y_i} + \Delta)^2 $$ 那么新损失函数会对错误分类的样本有更大的惩罚力度 ...

December 28, 2025 · 6 min

Data Mining Review

Data Mining 课程复习笔记 笔记目录 认识数据 数据预处理 朴素贝叶斯分类器 决策树分类 基于规则的分类 回归算法 支持向量机 SVM 模型的评价 这里只记载一些重要的知识点 or 需要死记硬背的定义(sad) 这篇笔记中夹杂了许多个人学习时的吐槽,希望可以缓解诸位的背书负担 🎩 附录: 错题大赏会 考试回忆录 认识数据 这一节非常无趣且都是死记硬背的知识点,主要由以下几部分组成: 基本概念 | 数据统计的方法 | 相似性度量 |数据可视化| 复习小巧思 part one 数据的基本概念 一句话总结: 数据(总体) > 数据对象(比如一张统计表) > 数据元素(表中的列) > 数据项(每列的具体值) 数据属性 阅读参考书目,感觉这里的数据属性指的是机器学习中数据的特征(比如Titanic数据集中的Age、Sex等) 比较搞人的是这里对数据属性也进行了分类,分为四种 标称属性:感觉这里指的是对数据的命名,比如 fanqi 养的六只猫需要六个不同的名字来区分 二元属性:只有两种取值的标称属性 序数属性:比如大中小,但是不知道大究竟是多少(定性分析) 数值属性:分成区间标度(我身高 180cm 比他高 2 cm)和比率标度(我跑步10km/h 比他快一倍) ‼️ 定性属性:标称 & 序数 定量属性:区间 & 比率 part two - 数据统计的基本方法 标准差 $\sigma = \sqrt{\frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2}$ ...

December 27, 2025 · 9 min

Fourier Series

终于到了傅里叶级数的章节了!信号处理打怪修炼已经到了关键的一步,冲破这关我们就能打遍天下无敌手了😼 前情回顾: 信号与系统基础 | LTI系统 目录 写在前面 系统响应特点 复指数信号的表达能力 傅里叶级数 连续时间傅里叶级数 离散时间傅里叶级数 LTI 系统与傅里叶级数 写在前面 在和傅里叶级数打交道之前,需要弄明白一个事情,那就是我们为什么需要它? 当我们在研究 LTI 系统时,如果能将一个复杂信号拆分成一系列简单信号的叠加,那么就能利用 LTI 系统线性与时不变的特性,利用每个简单信号的响应计算出最终的系统响应,那么这就带来了两个要求: (1) 选择的简单信号需要有足够强的表达能力,可以表示几乎所有的信号 (2) 系统对简单信号的响应足够简单,方便计算 那么让我们来看看复指数信号的特性吧 系统响应特点 $$\begin{aligned} e^{st} &\to e^{st} H(s) \quad (连续 LTI)\\ z^{n} &\to z^{n} H(z) \quad (离散 LTI) \end{aligned}$$从 👆 的公式(证明方法非常简单,套用上一章介绍的卷积操作就可以得到)可以看出,复指数信号经过 LTI 系统后,仍是复指数信号,区别仅在于幅度上的变化。所以对于复指数信号而言,它满足我们提出的第二点要求,剩下要证明的就是第一点了 复指数信号的表达能力 很可惜,博主当前的能力并不能给出一个严格的证明,所以下面只好假设复指数信号可以表示绝大部分信号了 💦 不过可以通过一个很好玩的角度来帮助大家理解傅里叶级数系数的含义 当我们将一个周期(角频率为 $\omega_0$)信号 $x(t)$ 分解为一系列复指数信号的叠加 $\hat{x}(t) = \sum_{k=-\infty}^{\infty} a_k e^{j k \omega_0 t}$ 时,我们的目标是让 $\hat{x}(t)$ 尽可能地接近 $x(t)$,那么如何衡量两者的接近程度呢? 答案是用能量来衡量,令 $$E = \int_{T} |x(t) - \hat{x}(t)|^2 dt$$那么 $E$ 越小,说明两者越接近,所以最优的傅里叶系数可以通过用 $E$ 对 $a_k$ 求偏导并令其为0来得到 ...

December 27, 2025 · 4 min

Hierarchical Reinforcement Learning

前言 目录 Learning Representations in Model-Free Hierarchical Reinforcement Learning Hierarchical Deep Reinforcement Learning Integrating Temporal Abstraction and Intrinsic Motivation REINFORCEMENT LEARNING WITH ANTICIPATION: A HIERARCHICAL APPROACH FOR LONG-HORIZON TASKS Learning Representations in Model-Free Hierarchical Reinforcement Learning 论文链接 论文的研究动机是通过引入 HRL 来解决 RL 面对具有 Sparse Reward 的问题表现不佳的问题(个人感觉这是在使用另一种方式去解决 NeSy 方法在做的事情,都是引入抽象的特征表示) Method 论文采用的方法框架由一个生产 sub goal 的 Meta-Controller 和一个解决 sub goal 的 Controller 组成 在时间 t 时,Meta-Controller 接收环境状态 $s_t$ 并选择一个 sub goal $g_t \in \mathcal{G}$ ,Controller 接收环境状态 $s_t$ 和 sub goal $g_t$ 并选择一个动作 $a_t$ ...

December 25, 2025 · 3 min

LTI Systems

Linear Time-Invariant Systems (LTI Systems) 这份笔记主要负责介绍线性时不变系统的定义与一些好玩的特性 前置知识回顾:信号与系统基础 目录: 线性时不变系统的定义 线性时不变系统的性质 线性时不变系统的定义 这一部分会介绍离散LTI系统和连续LTI系统 不过在开始之前需要研究一下单位脉冲函数的特性🦉 离散LTI系统 在上一篇笔记中,有一个很重要的公式 $x[n] \delta[n - n_0] = x[n_0]$ (脉冲信号的筛选特性) 由此我们可以用脉冲信号来表示任意的离散信号: $$x[n] = \sum_{k=-\infty}^{\infty} x[k] \delta[n-k]$$假设系统对单位脉冲信号的响应信号为 $h[n]$, 那么不妨定义 $h_k[n]$ 为系统对 $\delta[n-k]$ 的响应信号。 利用系统的线性特性,我们可以将任意离散信号的响应表示为 $$ y[n] = \sum_{k=-\infty}^{\infty} x[k] h_k[n] $$再利用系统的时不变性,我们可以得到 $h_k[n] = h[n-k]$, 从而得到 $$ y[n] = \sum_{k=-\infty}^{\infty} x[k] h[n-k] = x[n] * h[n] $$Tips: 其实我们可以将表达式 $\sum_{k=-\infty}^{\infty} x[k] h[n-k]$ 当作关于 k 的函数,则$y_k[n] = x[k] h[n-k]$ ,即所有 $y_k[n]$ 的叠加即为系统的输出信号 $y[n]$ ...

December 23, 2025 · 3 min

Signals and Systems

写在前面 期末周到了,数字信号学的一塌糊涂,创建这个系列也是督促自己好好复习这一门课😢 $$E=mc^2$$测试一下是否支持LaTex渲染 信号与系统 本章主要负责介绍一些典型信号与系统,并分析他们的基本性质 能量与功率 对于一个离散信号 $x[n]$,其能量与功率定义为 $$\begin{aligned} E &= \sum_{n=-\infty}^{\infty} |x[n]|^2 \\ P &= \lim_{N \to \infty} \frac{1}{2N+1} \sum_{n=-N}^{N} |x[n]|^2 \end{aligned}$$对于一个连续信号 $x(t)$,其能量与功率定义为 $$\begin{aligned} E &= \int_{-\infty}^{\infty} |x(t)|^2 dt \\ P &= \lim_{T \to \infty} \frac{1}{2T} \int_{-T}^{T} |x(t)|^2 dt \end{aligned}$$脉冲信号 & 阶跃信号 对于离散信号,我们可以规定如下两种特殊性质的信号 脉冲信号 $$ \delta [n] = \begin{cases} 1, & n = 0 \\ 0, & n \neq 0 \end{cases} $$对于任意的信号 $x[n]$,都有 $x[n] \delta [n] = x[0]\quad x[n] \delta[n-n_0] = x[n_0]$ ...

December 23, 2025 · 2 min