工作笔记 · VLA · 强化学习

机器人怎么“练”出来：在真实世界里，还是在想象里

模仿能让 VLA 有时成功，却很难次次成功。两条破局路线攻的是同一个根问题的不同瓶颈——一条在真机上练，一条在世界模型里练。

VLA 单靠模仿学不好，根子在 compounding error：模型一旦犯小错，就进入演示数据没覆盖的状态，于是更容易犯更大的错，误差累积直至失败。这是控制策略特有的困境——LLM 这类静态输出系统没有。RECAP 和 RISE 给了两种答案：把真实世界 RL 做对，或者干脆不依赖真实世界 RL。

发展脉络：一个瓶颈，两条破局路线

主图先把全局摆出来：模仿学习撞上复合误差，分叉成真实世界 RL（RECAP / π*0.6）与想象空间 RL（RISE）。两条路共享同一个内核——优势条件化加 flow matching；RISE 的暖身还直接复用了 RECAP 的框架，所以是递进关系。

Reading · RISE × π*0.6 / RECAP

模仿撞上复合误差，分叉成两条破局路线

起点是模仿学习，瓶颈是 compounding error，往下分出真实世界 RL 与想象空间 RL；底部是两条路共享的内核。Hover 看细节。

从模仿学习的天花板讲起

VLA 用模仿学习，能「有时成功」，难「次次成功」。原因是 compounding error，也就是 covariate shift：策略只在演示分布里见过世界，一旦犯个小错，就滑进演示没覆盖的状态，在陌生状态里更容易犯更大的错，越错越陌生，直到失败。

要点在于，这是控制策略特有的问题——它持续和环境交互，错误会沿时间复合。LLM 这类静态输出系统没有这个困境，给定输入就给一次输出，不存在「上一步的错把下一步推向更糟」。这也正是「LLM 靠监督就够、VLA 不够」的根因。

小错误→ 进入演示未覆盖的状态→ 更大的错误→ 更陌生的状态→ 失败

误差在闭环里累积——这就是模仿的天花板，也是控制策略区别于静态 LLM 的地方。

路线 A：RECAP / π*0.6 —— 在真实世界里练

RECAP 的全称是 RL with Experience and Corrections via Advantage-conditioned Policies。监督学习基座 π0.6 经 RECAP 训练后，得到 π*0.6。学习过程像人掌握一门手艺：先看演示模仿，再让教练边做边实时纠错，最后自己自主练习。

演示（模仿）→ 专家实时纠错（intervention）→ 自主练习（RL）↺ 回到数据池 D_ℓ

三步对应三种数据，闭环回灌；真正难的是把功劳/过错算到正确的那一步上。

RL 的核心难点是 credit assignment。举个具体例子：portafilter 插不进去，真正的错误往往在更早的「抓取角度」，而不是插入那一下。RECAP 用价值函数来解：价值函数预测到任务完成还差多少（负的步数），1.0 表示成功；优势就是价值的变化量——让价值上升的动作是好的，下降的是坏的。

最精妙的一步，是 policy extraction 用优势条件化、而不是策略梯度。做法是把 RL 转成条件化的监督学习：训练时给每个动作打上二值标签（Advantage: positive 或 negative）作为额外的文本输入，好的坏的全部数据都留下来训练；推理时永远输入 positive，于是学出的策略优于它的训练数据。

训练 Training

全部数据都入训

(状态, 动作, 优势标签) 一起喂进去。好动作标 positive，坏动作标 negative——坏样本不丢，照样从中学。

推理 Inference

永远输入 positive

固定输入 Advantage: positive → 只生成高优势动作。于是策略优于它见过的训练数据。

三种异质数据分工明确，标签设计正是关键：

专家演示

固定 positive

定义行为，给出该做什么

自主运行

价值函数算优势

探索，好坏都留下用于训练

专家干预

固定 positive

覆盖犯错后如何恢复，鲁棒性关键来源

模型这边，π0.6 是基于 5B 参数视觉语言模型加动作专家的 VLA，支持异质 prompt（文本指令加执行质量/优势标注）。补充几个 model card 上的细节：Gemma 3 4B 骨干、860M 动作专家、用 flow matching 生成连续动作。结果给具体数字：最难任务上吞吐量翻倍以上、失败率降低 2 倍以上；espresso 从连续 5 分半做到 23 分半，在新家折叠 50 件新衣物，在工厂组装并贴标 59 个真实包装盒，难任务成功率超过 90%。

RECAP 整体框架。奖励反馈加专家干预，把演示、自主经验、纠错三类数据拧成一条优势条件化的监督学习。

路线 B：RISE —— 在想象里练

RISE 面对同一个根问题——接触密集、动态任务里偏差会复合成失败——但攻的是另一个瓶颈：真机在线 RL 受限于安全风险、硬件成本和环境重置。试错、人工重置、再试，这个循环慢、贵、有风险。

核心做法是把 RL 环境从物理世界搬进想象空间，用一个组合式世界模型（Compositional World Model）：一个可控的动态模型，基于高效视频扩散预测多视角未来画面；一个进度敏感的价值模型，评估想象出来的状态、产出优势。两个模块各自用最合适的架构和目标独立优化——这正是「组合式」的含义，也是它的好处。

组合式世界模型。动态模型负责想象未来，价值模型负责评估优势，两者分头优化、再合到一起。

RISE · Compositional World Model

把 RL 环境搬进想象空间

真实数据离线锚定 → 动态模型与价值模型分别优化 → 想象里 rollout/算优势 → 策略优化 → 真机推理零额外开销。

自改进是一个闭环：Rollout 阶段，策略以最优优势为条件，在世界模型里交互产生 rollout 数据；Training 阶段，behavior policy 在优势条件化方案下训练。整个过程不碰真机，真机推理也零额外开销。关键设计来自消融——offline 数据占比 0.6 最优，用真实数据把策略锚住，防止它在想象里钻世界模型的空子、漂移掉；online 的 action 与 state 也都不可或缺。

自改进闭环。在想象空间里 rollout、算优势、更新策略，再回到 rollout——真机不参与。

结果同样给绝对成功率的提升：相对此前方法，dynamic brick sorting 提升 35%、backpack packing 提升 45%、box closing 提升 35%。对照的基线包含 RECAP、π0.5 以及 π0.5+DSRL。

两条路的本质与代价

先说关系：二者是递进，不是对立。RECAP 解决「真实世界 RL 怎么做对」，RISE 进一步解决「怎么不依赖真实世界 RL」，而且 RISE 在策略暖身阶段沿用了 RECAP 的优势条件化框架。再说代价：成本是被转移，不是被消除。RECAP 把成本压在物理侧——真机加人工干预；RISE 把成本压在世界模型的保真度上——动态模型一旦幻觉、失真，想象出来的优势就是错的，而 offline ratio 0.6 对冲的正是这个风险。

维度	RECAP / π*0.6	RISE
RL 场所	真实世界（真机 + 人工）	想象空间（世界模型内）
主要成本	物理侧：真机、环境重置、专家干预	世界模型保真度
优势表示	二值 positive / negative	更细的分箱
需真机交互	需要（自主练习在真机上）	不需要，真机推理零额外开销
价值函数	到完成的负步数，1.0 = 成功	进度敏感，产出优势
VLA 基座	π0.6（5B VLM + 动作专家）	沿用优势条件化框架暖身
核心风险	采集慢、贵、有安全风险	动态模型幻觉 → 优势算错

优势表示的取舍：RECAP 用二值标签，信号粗但好学、能吃 VLA 的语言理解、泛化好；RISE 用更细的分箱，信号更密但更依赖价值估计准确——这是「可学性 vs 信息量」的经典权衡。两边都从策略梯度转向优势条件化加 flow matching，因为对扩散/流匹配策略做 PG 很难，条件化把 RL 变监督、还能保留全部数据，是当前最务实的 scale 路线。

RECAP 把 RL 变成被语言条件化的监督学习；RISE 把物理 RL 变成带裁判的思维实验

展望

数据来源的分工大概会固化下来：演示负责定义新行为，coaching 负责精修策略，自主经验是潜在最大的数据来源、用来打磨细节，甚至走向超越人类。真正待回答的问题只有一个——想象和现实，哪条曲线 scale 得更好？世界模型的保真度，能不能随算力持续逼近真机？这个判断留作开放问题更诚实，不必现在下绝对结论。

数字与机制以两份原文为准；covariate shift、DAgger、offline RL、credit assignment 等背景用于补充理解，未虚构任何具体实验结果。