工作笔记 · 具身智能 · 数据采集

从互联网到物理世界：具身智能的数据革命从哪里开始？

表面是模型与算法之争，底层是数据从哪来、质量够不够、能不能跨本体复用之争。下面每一种采集范式，都是在同一个三角约束下的一个不同赌注。

当前领域的共识是：约束 VLA 进展的是数据，而不是架构或算力。但要写出深度，得点破第二层——瓶颈已经不是机器人数据不够多。把异构机器人数据简单混合常引发负迁移；一个精挑的 5% 子集就能恢复整套数据 85–90% 的性能；真正决定泛化的，是采集时刻意制造的多样性。所以问题不是采更多，而是怎样同时拿到动作/接触高保真、采集低成本可规模化、跨本体可复用——这三者难以兼得。

瓶颈不在数据多少，在数据从哪来

把异构机器人数据简单混合常常让模型变差；现有语料里大量数据其实在做无用功；而只覆盖训练分布内的数据几乎无法迁移到新环境。结论很直接：决定上限的不是数据量，是数据的来源与多样性。

于是所有采集范式都被同一个三角钉住——保真·接触、规模·成本、跨本体，按下一个就翘起另一个。把这条「在三角约束下推帕累托前沿」的线索讲清楚，就是这篇的骨架。

三者难以兼得。遥操作锚住保真却放不大；仿真把规模做到极致却隔着现实鸿沟；UMI 用硬件解耦换跨本体，却丢了全局视野与触觉。没有谁三个顶点全占，所有进展都是在这条边上挪动。

下图把六种范式排到这条演进轴上。三根竖条直观给出每种范式在三角上的得分；hover 任一节点，看它的一句原理、一个核心难点、一句判断。

Data · Embodied AI

在不可能三角上推进：保真·接触 / 规模·成本 / 跨本体，三者难以兼得

左→右是时间与轻量化方向。每个节点三根竖条＝它在三角上的取舍（高＝该轴更优）。Hover 看原理·难点·判断。

遥操作：保真锚点，但不可规模化

操作员通过主从臂、VR 或外骨骼直接驱动真机，关节角、夹爪、相机同步落盘。动作直接产生在目标本体上，没有重定向误差，保真度是所有路线里最高的。Open X-Embodiment 把 22 个平台、140 万条轨迹拼起来，训出的 RT-X 表现出约 50% 的正向跨形态迁移；DROID 又补了 7.6 万条轨迹、564 个场景。

代价也最直接：成本高、依赖真机、受制于人工，对操作员还不直观、缺力反馈。更关键的是数据与本体强绑定，形成「一机一数据」的孤岛。把它当成参照系就好——保真上限高、规模上限低，后面所有路线本质都在问同一句：能不能不要真机。

遥操作。主从直驱真机，动作落在目标本体上——保真最高，但放不大。

仿真：边际成本趋零，但隔着现实鸿沟

物理模拟器（Isaac Sim / MuJoCo）批量生成场景，边际成本接近零，还能安全覆盖碰撞、跌落这类长尾。对 locomotion、全身控制、导航非常好用。难点是 Sim-to-Real Gap——接触动力学、传感器噪声、光影都不好复现。判断很清楚：越是接触密集的精细操作，纯仿真越吃力，而这恰恰是后面世界模型想接管的那块。

仿真。边际成本趋零、长尾可控；接触密集任务仍隔着一道现实鸿沟。

人类视频：互联网级规模，但没有动作标签

直接拿互联网上的人类操作视频做预训练，规模一步到位。问题是只有「结果」没有「控制量」：看得到做什么，学不到怎么发力、怎么走轨迹。机器人数据有一条清晰的层级——互联网视频 → 第一人称 ego 视频 → 带动作的机器人数据 → 特定机器人带动作数据，越往下越稀缺、质量越高。判断：人类视频适合做物理常识与任务规划的先验，但当不了底层控制信号。这条层级也解释了为什么后面要一路往 ego、往带动作的数据走。

UMI：砍掉真机，但视野与触觉是代价

斯坦福 2024（RSS）的 UMI 给出一个很省的方案：一个手持平行夹爪加一颗 GoPro 作为唯一传感器，配合相对轨迹动作表示和推理期延迟匹配，让学到的策略与硬件无关、可跨多种机器人部署。155° 鱼眼广角，夹爪两侧加物理镜面提供隐式立体信息。

真正的脏细节在位姿。手持设备最难的不是拍画面，而是恢复精确的 6-DoF 末端位姿——UMI 依赖 ORB-SLAM3，这是整条流水线里最脆弱的一环，尺度模糊、运动模糊会直接限制能做的任务精度。纯视觉里接触帧通常不足 10%，面对易碎、可变形物体鲁棒性不足；数据集是在斯坦福一个雨周采的，策略在强直射阳光下就不灵。

领域在主动给它打补丁，这才是深度所在：FastUMI 用 RealSense T265 直接读 6-DoF 位姿，绕开笨重的离线 SLAM，FastUMI-100K 给到 10 万+ 轨迹、54 个任务；UMI-3D 把激光雷达放到末端，拿到米制尺度，让拉窗帘、开门、严重遮挡这些原本采不了的任务变得可规模采集；TacUMI 在指尖加触觉、腕部加六维力，用可锁夹爪把操作员手部施力从力数据里剔除；MV-UMI / ActiveUMI 补多视角，解决腕部视角的环境盲区。判断：UMI 的本质是在末端把动作和接触采到最准，但先天看不到全局——这是定位决定的，不是 bug。

UMI。手持夹爪 + 一颗相机，眼在手上→毫米级接触细节；代价是全局上下文与触觉。

Ego：人类行为级，但具身鸿沟难跨

戴上头显相机（Aria / Vision Pro / GoPro），用双手最自然地完成任务，记录第一人称视频、头动和 3D 手指姿态。规模上，Ego4D 约 3,670 小时，EgoDex（Apple 2025）829 小时、194 个桌面任务，是目前最大的灵巧操作数据集。

最有说服力的是一个反直觉结果：EgoMimic 发现用 Aria 采的 1 小时人类第一人称手部数据，对策略性能的贡献超过多采 1 小时机器人遥操作；2 小时机器人数据加 1 小时手部数据，强于 3 小时纯机器人数据——这直接改写了成本账。方法上，EgoVLA 先在大规模人类第一人称数据上预训练，再用少量机器人演示微调，用 IK 重定向把人手动作转成机器人动作。短板也明确：具身鸿沟让直接重定向常常失败，头部相机在毫米级微操时易遮挡，人主动协调头手带来的分布偏移机器人复刻不了。判断：Ego 把脑/小脑那层采得最全，末端精度和接触正好是它的缺口——和 UMI 互补。

Ego。第一人称带来全局上下文、任务规划与真实手感，外加失败/恢复的闭环数据。

收敛：Ego + UMI（2026 的共识，不是二选一）

分工已经很清楚：Ego 是脑与小脑，负责在哪、去哪、干什么、身体如何协同、长程规划；UMI 是末端执行器，负责精准抓取、用力、毫米微操、接触控制。落地形态也不复杂——同手佩戴 Ego 设备，再加一个手持或穿戴、带触觉力觉的无本体采集件，在不引入真机成本的前提下，同时留下环境、动作、接触、结果的闭环。

完整具身数据　＝　Ego（全局环境与任务规划）＋UMI（末端精细操作与接触控制）

Convergence

脑手协同：Ego 给全局，UMI 给末端

上泳道＝感知/规划（Ego），下泳道＝末端/接触（UMI），向右汇入完整具身数据。

Ego + UMI 融合。头上采全局与意图，手上采动作与接触——两条信息流汇成一条闭环。

趋势：把数据当作可生成的资源

规模正在到来。GEN-0 用超过 27 万小时真实交互数据训练通用操作策略，验证了机器人领域的 scaling law；Build AI 在 2025 年底放出 10 万小时来自真实工厂工人的第一人称数据集；模仿学习的性能也确实随高质量数据量呈幂律提升。

但纯堆量不是答案——负迁移和 coreset 已经说明问题。于是前沿转向把数据当作可生成的资源，让世界模型做数据引擎：GigaBrain-0 用约 1000 小时真机数据加世界模型生成数据训练，显著降低对真机的依赖，0.1 版把规模放大到 1 万小时；GigaWorld-0 把视频生成、3D 高斯泼溅、可微系统辨识与可执行运动规划缝在一起，当高保真数据引擎；其中 human-transfer 用 SAM2 加逆运动学，把第一人称人类视频转成机器人视角——这正是 Ego 路线的天然出口。要给生成留个冷静的注脚：现有方法要么只做表面视觉增强，要么会产生具身幻觉、生成物理上不可行的动作，所以把生成锚定在渲染出的机器人运动上，正在成为必要手段。

几条判断

整条演进的方向，是从「在目标机器人上采动作」，走向「在真实世界里采人类意图与接触，再重定向或生成到任意本体」。
两个长期不变的硬问题：一是从人类演示里恢复准确的动作与力标签；二是闭合具身差异加观测差异。每个系统都是对这两点的一个赌注。
力觉/触觉是下一道真正的护城河——视频永远拍不到力信号，这条缺口靠加大视频量补不上。
真正的瓶颈也许不在采集，而在评测——真实世界评测昂贵、耗时、常常不安全。采集解决了「从哪来」，评测才决定「能不能用」。

注：遥操作成本（约 100–200 美元/小时）、熟练操作员吞吐（约每小时 5–50 段）、Ego 单人日产出（约 8 小时以上、人民币百元/小时级），以及人手「20+ 自由度 vs 夹爪 1 自由度」的对比，均为业内估算或通俗类比，非已核实定值。