Vlm in Games

文章最有意思的地方在于 VLM 可以同时输出多个动作决策，这就可以用来解决 Zelda 环境中需要一次执行两个动作才能解决特定任务的情形了（而且因为单帧输入后状态几乎没有改变，所以他们也加入了动作循环，来让模型在连续的帧中执行同样的动作）

这篇研究的背景知识是 POMDP（部分可观测马尔可夫决策过程）

$$\begin{aligned} POMDP &= \langle S, A, T, R, \Omega, O, \gamma \rangle \\ s_{t+1} &\sim T(s_{t+1} | s_t, a_t) \\ a_t &= \pi(o_t) \\ r_t &= R(s_t, a_t) \\ o_t &\sim O(o_t | s_t) \\ \text{Goal} &= \max_\pi \mathbb{E_{\pi}} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] \end{aligned}$$

对于 VLM 模型的 finetuning，这篇论文发现用 Critic free 的 RL 方法在 Super Mario 游戏中训练效果不稳定（没给出有信服力的解释）

没有使用一个新的 VLM 模型来做为 Critic model，这篇文章用一个轻量的 CNN 来做为 Critic model，来评估 VLM 输出的 action sequence 的质量，这样就可以在训练过程中直接优化 VLM 的输出了。

$$\begin{aligned} \mathcal{L}(\phi) &= \mathbb{E}_{o_t \sim D} \left[ \text{Smooth}\ L1 (V_{\phi}(o_t) - \hat{R_t}) \right] \\ \hat{R_t} &= \sum_{i \geq t} \gamma^{i-t} r_i \end{aligned}$$

而在强化阶段，只使用 advantage > 0 的样本来更新 VLM 模型

Vlm in Games

目录

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

目录#

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning#

目录

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning