工作笔记 · VLA · 强化学习
机器人怎么“练”出来:在真实世界里,还是在想象里
VLA 单靠模仿学不好,根子在 compounding error:模型一旦犯小错,就进入演示数据没覆盖的状态,于是更容易犯更大的错,误差累积直至失败。这是控制策略特有的困境——LLM 这类静态输出系统没有。RECAP 和 RISE 给了两种答案:把真实世界 RL 做对,或者干脆不依赖真实世界 RL。
发展脉络:一个瓶颈,两条破局路线
主图先把全局摆出来:模仿学习撞上复合误差,分叉成真实世界 RL(RECAP / π*0.6)与想象空间 RL(RISE)。两条路共享同一个内核——优势条件化加 flow matching;RISE 的暖身还直接复用了 RECAP 的框架,所以是递进关系。
从模仿学习的天花板讲起
VLA 用模仿学习,能「有时成功」,难「次次成功」。原因是 compounding error,也就是 covariate shift:策略只在演示分布里见过世界,一旦犯个小错,就滑进演示没覆盖的状态,在陌生状态里更容易犯更大的错,越错越陌生,直到失败。
要点在于,这是控制策略特有的问题——它持续和环境交互,错误会沿时间复合。LLM 这类静态输出系统没有这个困境,给定输入就给一次输出,不存在「上一步的错把下一步推向更糟」。这也正是「LLM 靠监督就够、VLA 不够」的根因。
误差在闭环里累积——这就是模仿的天花板,也是控制策略区别于静态 LLM 的地方。
路线 A:RECAP / π*0.6 —— 在真实世界里练
RECAP 的全称是 RL with Experience and Corrections via Advantage-conditioned Policies。监督学习基座 π0.6 经 RECAP 训练后,得到 π*0.6。学习过程像人掌握一门手艺:先看演示模仿,再让教练边做边实时纠错,最后自己自主练习。
三步对应三种数据,闭环回灌;真正难的是把功劳/过错算到正确的那一步上。
RL 的核心难点是 credit assignment。举个具体例子:portafilter 插不进去,真正的错误往往在更早的「抓取角度」,而不是插入那一下。RECAP 用价值函数来解:价值函数预测到任务完成还差多少(负的步数),1.0 表示成功;优势就是价值的变化量——让价值上升的动作是好的,下降的是坏的。
最精妙的一步,是 policy extraction 用优势条件化、而不是策略梯度。做法是把 RL 转成条件化的监督学习:训练时给每个动作打上二值标签(Advantage: positive 或 negative)作为额外的文本输入,好的坏的全部数据都留下来训练;推理时永远输入 positive,于是学出的策略优于它的训练数据。
训练 Training
全部数据都入训
(状态, 动作, 优势标签) 一起喂进去。好动作标 positive,坏动作标 negative——坏样本不丢,照样从中学。
推理 Inference
永远输入 positive
固定输入 Advantage: positive → 只生成高优势动作。于是策略优于它见过的训练数据。
三种异质数据分工明确,标签设计正是关键:
专家演示
固定 positive
定义行为,给出该做什么
自主运行
价值函数算优势
探索,好坏都留下用于训练
专家干预
固定 positive
覆盖犯错后如何恢复,鲁棒性关键来源
模型这边,π0.6 是基于 5B 参数视觉语言模型加动作专家的 VLA,支持异质 prompt(文本指令加执行质量/优势标注)。补充几个 model card 上的细节:Gemma 3 4B 骨干、860M 动作专家、用 flow matching 生成连续动作。结果给具体数字:最难任务上吞吐量翻倍以上、失败率降低 2 倍以上;espresso 从连续 5 分半做到 23 分半,在新家折叠 50 件新衣物,在工厂组装并贴标 59 个真实包装盒,难任务成功率超过 90%。
路线 B:RISE —— 在想象里练
RISE 面对同一个根问题——接触密集、动态任务里偏差会复合成失败——但攻的是另一个瓶颈:真机在线 RL 受限于安全风险、硬件成本和环境重置。试错、人工重置、再试,这个循环慢、贵、有风险。
核心做法是把 RL 环境从物理世界搬进想象空间,用一个组合式世界模型(Compositional World Model):一个可控的动态模型,基于高效视频扩散预测多视角未来画面;一个进度敏感的价值模型,评估想象出来的状态、产出优势。两个模块各自用最合适的架构和目标独立优化——这正是「组合式」的含义,也是它的好处。
自改进是一个闭环:Rollout 阶段,策略以最优优势为条件,在世界模型里交互产生 rollout 数据;Training 阶段,behavior policy 在优势条件化方案下训练。整个过程不碰真机,真机推理也零额外开销。关键设计来自消融——offline 数据占比 0.6 最优,用真实数据把策略锚住,防止它在想象里钻世界模型的空子、漂移掉;online 的 action 与 state 也都不可或缺。
结果同样给绝对成功率的提升:相对此前方法,dynamic brick sorting 提升 35%、backpack packing 提升 45%、box closing 提升 35%。对照的基线包含 RECAP、π0.5 以及 π0.5+DSRL。
两条路的本质与代价
先说关系:二者是递进,不是对立。RECAP 解决「真实世界 RL 怎么做对」,RISE 进一步解决「怎么不依赖真实世界 RL」,而且 RISE 在策略暖身阶段沿用了 RECAP 的优势条件化框架。再说代价:成本是被转移,不是被消除。RECAP 把成本压在物理侧——真机加人工干预;RISE 把成本压在世界模型的保真度上——动态模型一旦幻觉、失真,想象出来的优势就是错的,而 offline ratio 0.6 对冲的正是这个风险。
| 维度 | RECAP / π*0.6 | RISE |
|---|---|---|
| RL 场所 | 真实世界(真机 + 人工) | 想象空间(世界模型内) |
| 主要成本 | 物理侧:真机、环境重置、专家干预 | 世界模型保真度 |
| 优势表示 | 二值 positive / negative | 更细的分箱 |
| 需真机交互 | 需要(自主练习在真机上) | 不需要,真机推理零额外开销 |
| 价值函数 | 到完成的负步数,1.0 = 成功 | 进度敏感,产出优势 |
| VLA 基座 | π0.6(5B VLM + 动作专家) | 沿用优势条件化框架暖身 |
| 核心风险 | 采集慢、贵、有安全风险 | 动态模型幻觉 → 优势算错 |
优势表示的取舍:RECAP 用二值标签,信号粗但好学、能吃 VLA 的语言理解、泛化好;RISE 用更细的分箱,信号更密但更依赖价值估计准确——这是「可学性 vs 信息量」的经典权衡。两边都从策略梯度转向优势条件化加 flow matching,因为对扩散/流匹配策略做 PG 很难,条件化把 RL 变监督、还能保留全部数据,是当前最务实的 scale 路线。
RECAP 把 RL 变成被语言条件化的监督学习;RISE 把物理 RL 变成带裁判的思维实验
展望
数据来源的分工大概会固化下来:演示负责定义新行为,coaching 负责精修策略,自主经验是潜在最大的数据来源、用来打磨细节,甚至走向超越人类。真正待回答的问题只有一个——想象和现实,哪条曲线 scale 得更好?世界模型的保真度,能不能随算力持续逼近真机?这个判断留作开放问题更诚实,不必现在下绝对结论。
数字与机制以两份原文为准;covariate shift、DAgger、offline RL、credit assignment 等背景用于补充理解,未虚构任何具体实验结果。