研究笔记 · Research Note

具身数据采集方法论 (Embodied Data Collection Methodology)

Zhenyu He · Jobs Stroustrup 阅读约 1 分钟

具身数据采集方法论 (Embodied Data Collection Methodology)

[!question] 🧠 Zhenyu Review Status: 有开放问题

定义

具身智能（Physical AI / Embodied AI）训练所需数据的采集方法体系。核心问题是：如何以可规模化的方式获取高质量的机器人操作数据——尤其是灵巧手（dexterous hand）操作数据。

数据金字塔（传统框架）

         ┌─────────────┐
         │  真机操作数据  │ ← 质量最高，但贵、慢、难 scale
         ├─────────────┤
         │   仿真数据    │ ← 量大，但 sim-to-real gap
         ├─────────────┤
         │  互联网视频   │ ← 量最大，但难学、缺触觉
         └─────────────┘

核心路径演进

1. 仿真（Simulation）

代表：OpenAI Dactyl（玩魔方）、ADR
优势：数据几乎无限
瓶颈：物理建模依赖强，未建模接触模式下失败；训练成本极高
后续改进：ExoStart（引入少量人类演示）、Bi-DexHands（双手）、Visual Dexterity（视觉闭环）
判断：有边界，灵巧手最终要回到真实世界数据

2. 遥操作（Teleoperation）

本质：人实时控制机器人做示教，录制动作轨迹
三条路线：
- 视觉路线：DexPilot → AnyTeleop → HoloDex / Open-TeleVision / BunnyVisionPro
- 手套路线：Shadow Hand 方案（手套 + Vive tracker）
- 外骨骼路线：HexoTrac / MILE / DOGlove
根本局限：需要机器人在场，天然限制 scale-up

3. In-the-wild 无本体采集（最有前途）

核心思路：不需要机器人在场，从人的日常行为中采数据
二指夹爪已跑通： → Sunday / （27 万小时）
灵巧手外骨骼三种形态：
- 手下式：同构设计，低 embodiment gap，但绑定特定本体
- 手中式：贴合手指，需为每种机器人手定制外骨骼
- 手上式 (over-hand exoskeleton, an embodied-AI startup category)：追求通用性，cost-efficient but algorithmically harder
数据手套路线：DexWild（EMF 手套 + ArUco），成本高（大几万一只）

4. Human Video Data（未来金矿）

代表：EgoMimic / EgoDex / EgoScale
量近乎无穷，但噪声严重：自遮挡、缺触觉、embodiment gap

核心 Trade-off

数据可用性（data utility）vs 规模化潜力（scale-up potential）

越容易 scale-up → 硬件负担 ↓ 但算法负担 ↑。这是灵巧手数据采集领域的根本张力。

开放问题（公开版本）

Human Video Data 中的操作知识如何高效”蒸馏”给机器人？
今天采集的超出当前机器人能力的人手数据，未来更高自由度灵巧手能否复用？
灵巧手数据该收什么格式？行业尚未达成共识。
触觉数据的标准化：电阻式 vs 视触觉 vs 其他？
世界模型类方法是否会挤压数据采集的需求？
Sim2real 暴力求解在 locomotion 已有突破，manipulation 能否同样突破？
操作、导航、运动目前分离训练，统一是否迟早的事？多久？

来源

(third-party industry article — not redistributed here)
(internal team-discussion notes — private)