目录

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

论文链接

文章最有意思的地方在于 VLM 可以同时输出多个动作决策,这就可以用来解决 Zelda 环境中需要一次执行两个动作才能解决特定任务的情形了(而且因为单帧输入后状态几乎没有改变,所以他们也加入了动作循环,来让模型在连续的帧中执行同样的动作)

这篇研究的背景知识是 POMDP(部分可观测马尔可夫决策过程)

$$\begin{aligned} POMDP &= \langle S, A, T, R, \Omega, O, \gamma \rangle \\ s_{t+1} &\sim T(s_{t+1} | s_t, a_t) \\ a_t &= \pi(o_t) \\ r_t &= R(s_t, a_t) \\ o_t &\sim O(o_t | s_t) \\ \text{Goal} &= \max_\pi \mathbb{E_{\pi}} \left[ \sum_{t=0}^{\infty} \gamma^t r_t \right] \end{aligned}$$

对于 VLM 模型的 finetuning,这篇论文发现用 Critic free 的 RL 方法在 Super Mario 游戏中训练效果不稳定(没给出有信服力的解释)

没有使用一个新的 VLM 模型来做为 Critic model,这篇文章用一个轻量的 CNN 来做为 Critic model,来评估 VLM 输出的 action sequence 的质量,这样就可以在训练过程中直接优化 VLM 的输出了。

$$\begin{aligned} \mathcal{L}(\phi) &= \mathbb{E}_{o_t \sim D} \left[ \text{Smooth}\ L1 (V_{\phi}(o_t) - \hat{R_t}) \right] \\ \hat{R_t} &= \sum_{i \geq t} \gamma^{i-t} r_i \end{aligned}$$

而在强化阶段,只使用 advantage > 0 的样本来更新 VLM 模型