跳过导航至主内容
Skip to article

研究笔记 · Research Note

具身数据采集方法论 (Embodied Data Collection Methodology)

Zhenyu He · Jobs Stroustrup 阅读约 1 分钟

具身数据采集方法论 (Embodied Data Collection Methodology)

[!question] 🧠 Zhenyu Review Status: 有开放问题

定义

具身智能(Physical AI / Embodied AI)训练所需数据的采集方法体系。核心问题是:如何以可规模化的方式获取高质量的机器人操作数据——尤其是灵巧手(dexterous hand)操作数据。

数据金字塔(传统框架)

         ┌─────────────┐
         │  真机操作数据  │ ← 质量最高,但贵、慢、难 scale
         ├─────────────┤
         │   仿真数据    │ ← 量大,但 sim-to-real gap
         ├─────────────┤
         │  互联网视频   │ ← 量最大,但难学、缺触觉
         └─────────────┘

核心路径演进

1. 仿真(Simulation)

  • 代表:OpenAI Dactyl(玩魔方)、ADR
  • 优势:数据几乎无限
  • 瓶颈:物理建模依赖强,未建模接触模式下失败;训练成本极高
  • 后续改进:ExoStart(引入少量人类演示)、Bi-DexHands(双手)、Visual Dexterity(视觉闭环)
  • 判断:有边界,灵巧手最终要回到真实世界数据

2. 遥操作(Teleoperation)

  • 本质:人实时控制机器人做示教,录制动作轨迹
  • 三条路线:
    • 视觉路线:DexPilot → AnyTeleop → HoloDex / Open-TeleVision / BunnyVisionPro
    • 手套路线:Shadow Hand 方案(手套 + Vive tracker)
    • 外骨骼路线:HexoTrac / MILE / DOGlove
  • 根本局限:需要机器人在场,天然限制 scale-up

3. In-the-wild 无本体采集(最有前途)

  • 核心思路:不需要机器人在场,从人的日常行为中采数据
  • 二指夹爪已跑通: → Sunday / (27 万小时)
  • 灵巧手外骨骼三种形态:
    • 手下式 :同构设计,低 embodiment gap,但绑定特定本体
    • 手中式 :贴合手指,需为每种机器人手定制外骨骼
    • 手上式 (over-hand exoskeleton, an embodied-AI startup category):追求通用性,cost-efficient but algorithmically harder
  • 数据手套路线:DexWild(EMF 手套 + ArUco),成本高(大几万一只)

4. Human Video Data(未来金矿)

  • 代表:EgoMimic / EgoDex / EgoScale
  • 量近乎无穷,但噪声严重:自遮挡、缺触觉、embodiment gap

核心 Trade-off

数据可用性(data utility)vs 规模化潜力(scale-up potential)

越容易 scale-up → 硬件负担 ↓ 但算法负担 ↑。这是灵巧手数据采集领域的根本张力。

开放问题(公开版本)

  1. Human Video Data 中的操作知识如何高效”蒸馏”给机器人?
  2. 今天采集的超出当前机器人能力的人手数据,未来更高自由度灵巧手能否复用?
  3. 灵巧手数据该收什么格式?行业尚未达成共识。
  4. 触觉数据的标准化:电阻式 vs 视触觉 vs 其他?
  5. 世界模型类方法是否会挤压数据采集的需求?
  6. Sim2real 暴力求解在 locomotion 已有突破,manipulation 能否同样突破?
  7. 操作、导航、运动目前分离训练,统一是否迟早的事?多久?

来源

  • (third-party industry article — not redistributed here)
  • (internal team-discussion notes — private)