研究笔记 · Research Note
具身数据采集方法论 (Embodied Data Collection Methodology)
具身数据采集方法论 (Embodied Data Collection Methodology)
[!question] 🧠 Zhenyu Review Status: 有开放问题
定义
具身智能(Physical AI / Embodied AI)训练所需数据的采集方法体系。核心问题是:如何以可规模化的方式获取高质量的机器人操作数据——尤其是灵巧手(dexterous hand)操作数据。
数据金字塔(传统框架)
┌─────────────┐
│ 真机操作数据 │ ← 质量最高,但贵、慢、难 scale
├─────────────┤
│ 仿真数据 │ ← 量大,但 sim-to-real gap
├─────────────┤
│ 互联网视频 │ ← 量最大,但难学、缺触觉
└─────────────┘
核心路径演进
1. 仿真(Simulation)
- 代表:OpenAI Dactyl(玩魔方)、ADR
- 优势:数据几乎无限
- 瓶颈:物理建模依赖强,未建模接触模式下失败;训练成本极高
- 后续改进:ExoStart(引入少量人类演示)、Bi-DexHands(双手)、Visual Dexterity(视觉闭环)
- 判断:有边界,灵巧手最终要回到真实世界数据
2. 遥操作(Teleoperation)
- 本质:人实时控制机器人做示教,录制动作轨迹
- 三条路线:
- 视觉路线:DexPilot → AnyTeleop → HoloDex / Open-TeleVision / BunnyVisionPro
- 手套路线:Shadow Hand 方案(手套 + Vive tracker)
- 外骨骼路线:HexoTrac / MILE / DOGlove
- 根本局限:需要机器人在场,天然限制 scale-up
3. In-the-wild 无本体采集(最有前途)
- 核心思路:不需要机器人在场,从人的日常行为中采数据
- 二指夹爪已跑通: → Sunday / (27 万小时)
- 灵巧手外骨骼三种形态:
- 手下式 :同构设计,低 embodiment gap,但绑定特定本体
- 手中式 :贴合手指,需为每种机器人手定制外骨骼
- 手上式 (over-hand exoskeleton, an embodied-AI startup category):追求通用性,cost-efficient but algorithmically harder
- 数据手套路线:DexWild(EMF 手套 + ArUco),成本高(大几万一只)
4. Human Video Data(未来金矿)
- 代表:EgoMimic / EgoDex / EgoScale
- 量近乎无穷,但噪声严重:自遮挡、缺触觉、embodiment gap
核心 Trade-off
数据可用性(data utility)vs 规模化潜力(scale-up potential)
越容易 scale-up → 硬件负担 ↓ 但算法负担 ↑。这是灵巧手数据采集领域的根本张力。
开放问题(公开版本)
- Human Video Data 中的操作知识如何高效”蒸馏”给机器人?
- 今天采集的超出当前机器人能力的人手数据,未来更高自由度灵巧手能否复用?
- 灵巧手数据该收什么格式?行业尚未达成共识。
- 触觉数据的标准化:电阻式 vs 视触觉 vs 其他?
- 世界模型类方法是否会挤压数据采集的需求?
- Sim2real 暴力求解在 locomotion 已有突破,manipulation 能否同样突破?
- 操作、导航、运动目前分离训练,统一是否迟早的事?多久?
来源
- (third-party industry article — not redistributed here)
- (internal team-discussion notes — private)