工作笔记 · VLA · 强化学习

机器人怎么“练”出来:在真实世界里,还是在想象里

VLA 单靠模仿学不好,根子在 compounding error:模型一旦犯小错,就进入演示数据没覆盖的状态,于是更容易犯更大的错,误差累积直至失败。这是控制策略特有的困境——LLM 这类静态输出系统没有。RECAP 和 RISE 给了两种答案:把真实世界 RL 做对,或者干脆不依赖真实世界 RL。

发展脉络:一个瓶颈,两条破局路线

主图先把全局摆出来:模仿学习撞上复合误差,分叉成真实世界 RL(RECAP / π*0.6)与想象空间 RL(RISE)。两条路共享同一个内核——优势条件化加 flow matching;RISE 的暖身还直接复用了 RECAP 的框架,所以是递进关系。

Reading · RISE × π*0.6 / RECAP

模仿撞上复合误差,分叉成两条破局路线

起点是模仿学习,瓶颈是 compounding error,往下分出真实世界 RL 与想象空间 RL;底部是两条路共享的内核。Hover 看细节。

从模仿学习的天花板讲起

VLA 用模仿学习,能「有时成功」,难「次次成功」。原因是 compounding error,也就是 covariate shift:策略只在演示分布里见过世界,一旦犯个小错,就滑进演示没覆盖的状态,在陌生状态里更容易犯更大的错,越错越陌生,直到失败。

要点在于,这是控制策略特有的问题——它持续和环境交互,错误会沿时间复合。LLM 这类静态输出系统没有这个困境,给定输入就给一次输出,不存在「上一步的错把下一步推向更糟」。这也正是「LLM 靠监督就够、VLA 不够」的根因。

小错误 进入演示未覆盖的状态 更大的错误 更陌生的状态 失败

误差在闭环里累积——这就是模仿的天花板,也是控制策略区别于静态 LLM 的地方。

路线 A:RECAP / π*0.6 —— 在真实世界里练

RECAP 的全称是 RL with Experience and Corrections via Advantage-conditioned Policies。监督学习基座 π0.6 经 RECAP 训练后,得到 π*0.6。学习过程像人掌握一门手艺:先看演示模仿,再让教练边做边实时纠错,最后自己自主练习。

演示(模仿) 专家实时纠错(intervention) 自主练习(RL) 回到数据池 D

三步对应三种数据,闭环回灌;真正难的是把功劳/过错算到正确的那一步上。

RL 的核心难点是 credit assignment。举个具体例子:portafilter 插不进去,真正的错误往往在更早的「抓取角度」,而不是插入那一下。RECAP 用价值函数来解:价值函数预测到任务完成还差多少(负的步数),1.0 表示成功;优势就是价值的变化量——让价值上升的动作是好的,下降的是坏的。

最精妙的一步,是 policy extraction 用优势条件化、而不是策略梯度。做法是把 RL 转成条件化的监督学习:训练时给每个动作打上二值标签(Advantage: positive 或 negative)作为额外的文本输入,好的坏的全部数据都留下来训练;推理时永远输入 positive,于是学出的策略优于它的训练数据。

训练 Training

全部数据都入训

(状态, 动作, 优势标签) 一起喂进去。好动作标 positive,坏动作标 negative——坏样本不丢,照样从中学。

推理 Inference

永远输入 positive

固定输入 Advantage: positive → 只生成高优势动作。于是策略优于它见过的训练数据。

三种异质数据分工明确,标签设计正是关键:

A

专家演示

固定 positive

定义行为,给出该做什么

B

自主运行

价值函数算优势

探索,好坏都留下用于训练

C

专家干预

固定 positive

覆盖犯错后如何恢复,鲁棒性关键来源

模型这边,π0.6 是基于 5B 参数视觉语言模型加动作专家的 VLA,支持异质 prompt(文本指令加执行质量/优势标注)。补充几个 model card 上的细节:Gemma 3 4B 骨干、860M 动作专家、用 flow matching 生成连续动作。结果给具体数字:最难任务上吞吐量翻倍以上、失败率降低 2 倍以上;espresso 从连续 5 分半做到 23 分半,在新家折叠 50 件新衣物,在工厂组装并贴标 59 个真实包装盒,难任务成功率超过 90%。

RECAP 整体框架。奖励反馈加专家干预,把演示、自主经验、纠错三类数据拧成一条优势条件化的监督学习。

路线 B:RISE —— 在想象里练

RISE 面对同一个根问题——接触密集、动态任务里偏差会复合成失败——但攻的是另一个瓶颈:真机在线 RL 受限于安全风险、硬件成本和环境重置。试错、人工重置、再试,这个循环慢、贵、有风险。

核心做法是把 RL 环境从物理世界搬进想象空间,用一个组合式世界模型(Compositional World Model):一个可控的动态模型,基于高效视频扩散预测多视角未来画面;一个进度敏感的价值模型,评估想象出来的状态、产出优势。两个模块各自用最合适的架构和目标独立优化——这正是「组合式」的含义,也是它的好处。

组合式世界模型。动态模型负责想象未来,价值模型负责评估优势,两者分头优化、再合到一起。

RISE · Compositional World Model

把 RL 环境搬进想象空间

真实数据离线锚定 → 动态模型与价值模型分别优化 → 想象里 rollout/算优势 → 策略优化 → 真机推理零额外开销。

自改进是一个闭环:Rollout 阶段,策略以最优优势为条件,在世界模型里交互产生 rollout 数据;Training 阶段,behavior policy 在优势条件化方案下训练。整个过程不碰真机,真机推理也零额外开销。关键设计来自消融——offline 数据占比 0.6 最优,用真实数据把策略锚住,防止它在想象里钻世界模型的空子、漂移掉;online 的 action 与 state 也都不可或缺。

自改进闭环。在想象空间里 rollout、算优势、更新策略,再回到 rollout——真机不参与。

结果同样给绝对成功率的提升:相对此前方法,dynamic brick sorting 提升 35%、backpack packing 提升 45%、box closing 提升 35%。对照的基线包含 RECAP、π0.5 以及 π0.5+DSRL。

两条路的本质与代价

先说关系:二者是递进,不是对立。RECAP 解决「真实世界 RL 怎么做对」,RISE 进一步解决「怎么不依赖真实世界 RL」,而且 RISE 在策略暖身阶段沿用了 RECAP 的优势条件化框架。再说代价:成本是被转移,不是被消除。RECAP 把成本压在物理侧——真机加人工干预;RISE 把成本压在世界模型的保真度上——动态模型一旦幻觉、失真,想象出来的优势就是错的,而 offline ratio 0.6 对冲的正是这个风险。

维度RECAP / π*0.6RISE
RL 场所真实世界(真机 + 人工)想象空间(世界模型内)
主要成本物理侧:真机、环境重置、专家干预世界模型保真度
优势表示二值 positive / negative更细的分箱
需真机交互需要(自主练习在真机上)不需要,真机推理零额外开销
价值函数到完成的负步数,1.0 = 成功进度敏感,产出优势
VLA 基座π0.6(5B VLM + 动作专家)沿用优势条件化框架暖身
核心风险采集慢、贵、有安全风险动态模型幻觉 → 优势算错

优势表示的取舍:RECAP 用二值标签,信号粗但好学、能吃 VLA 的语言理解、泛化好;RISE 用更细的分箱,信号更密但更依赖价值估计准确——这是「可学性 vs 信息量」的经典权衡。两边都从策略梯度转向优势条件化加 flow matching,因为对扩散/流匹配策略做 PG 很难,条件化把 RL 变监督、还能保留全部数据,是当前最务实的 scale 路线。

RECAP 把 RL 变成被语言条件化的监督学习RISE 把物理 RL 变成带裁判的思维实验

展望

数据来源的分工大概会固化下来:演示负责定义新行为,coaching 负责精修策略,自主经验是潜在最大的数据来源、用来打磨细节,甚至走向超越人类。真正待回答的问题只有一个——想象和现实,哪条曲线 scale 得更好?世界模型的保真度,能不能随算力持续逼近真机?这个判断留作开放问题更诚实,不必现在下绝对结论。

数字与机制以两份原文为准;covariate shift、DAgger、offline RL、credit assignment 等背景用于补充理解,未虚构任何具体实验结果。