Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Introduction

  • core bottleneck: datasets smaller than internet-scale LMM training data
  • synthentic data 缺少 dexterous real-world hands
  • human videos: abundant real-world data

Can we pretrain a dexterous VLA from large-scale human videos, analogous to GPT-3, to explicitly imitate human actions and adapt to robot hands via post-training?

challenge

  • 数据异质性 (Data Heterogeneity)

人类视频数据来源广泛,拍摄设备、坐标系和录制条件差异显著。这种异构性使模型难以学习,需要设计统一的标准并嵌入 3D 空间推理能力。

  • 手部量化 (Hand Quantization)

与机械夹爪等简单动作不同,手指动作复杂且精细。如何将连续手部运动离散化为“语言兼容”的表示,同时保留毫米级精度,是关键难题。

  • 跨模态推理 (Cross-Modal Reasoning)

模型不仅要理解视觉场景和语言指令,还要准确映射到细致的手指运动。相比传统的多模态模型,这需要更高层次的多模态依赖建模。

  • 机器人控制迁移 (Robot Control Transfer)

人手与机器人手在形态上存在差异,直接迁移不现实。因此必须通过精心的迁移学习,使学到的操作策略适配机器人平台

Being-H0

  • physcial instruciton tuning
  • 使用人类视频数据进行预训练
  • 物理空间对齐
  • post-training adaptation

1. 大型多模态模型(Large Multimodal Models, LMMs)

  • 视觉指令微调(visual instruction tuning) 是提升LMM指令遵循能力的关键技术。
  • 当前顶级LMM多为闭源,但近期趋势趋向开放(如开源权重、训练细节和数据配方)。

2. 人体动作生成(Human-body Motion Generation)

  • 介绍了从早期数据集(如KIT-ML、AMASS)到大规模文本标注数据集(如HumanML3D、MotionX、MotionLib)的演进。
  • 主流方法分为两类:
    • 扩散模型:擅长生成高保真动作,但可能缺乏物理合理性(如脚部滑动);
    • 自回归模型:适合长序列建模和文本推理,常结合VQ-VAE、残差量化(RQ)等离散化技术。
  • 近期工作尝试结合强化学习(RL)提升动作的物理真实性。

3. 手部动作生成(Hand Motion Generation)

  • 聚焦于手-物交互(hand-object interaction)和精细动作精度
  • 现有数据集多依赖动作捕捉(mocap)或多相机系统,场景多样性受限(多为桌面操作)。
  • 单目重建技术(如HaMeR)和3D手部模型(如MANO/SMPL-X)使从第一人称视频中提取伪标签成为可能。
  • 但这些方法常受限于弱透视假设,难以泛化到视角变化大的场景。
  • 最新工作(如Dyn-HaMR)通过结合SLAM解决相机运动问题。

4. 从人类视频中学习视觉-语言-动作模型(Learning VLAs from Human Videos)

  • 当前VLA模型(如RT-1/2、OpenVLA、π0、GR00T)主要依赖小规模遥操作数据集(如Open X-Embodiment)或仿真数据
    • 遥操作数据规模小、成本高,尤其对灵巧手;
    • 仿真数据存在sim-to-real gap,难以部署到真实机器人。
  • 利用人类视频是一种有前景的替代方案,已有工作尝试提取:
    • 视觉特征(如R3M)、
    • 3D感知先验、
    • 交互知识(如抓取、接触点)。
  • 但多数方法采用隐式对齐(如GR00T的潜在动作),未显式建模人-机器人动作映射
  • 少数工作尝试在视觉层面(如图像编辑)或动作空间(如统一人中心状态)进行对齐,但仍局限于简单夹爪忽略手指级精细动作对齐

Overview

Pretraining

vision, language \to hand motion

数据集D\mathcal D

D={(vi,ti,mi)}v:visual input,t:language descriptionm={θ,rrot,τ,β}:MANO-parameterized motionθ:joint angles,rrot:wrist rotation,τ:translation,β:shape\mathcal D=\{(v_i, t_i, m_i)\}\\ v:\text{visual input}, t:\text{language description}\\m=\{\theta,r_{rot}, \tau, \beta\}:\text{MANO-parameterized motion}\\\theta:\text{joint angles},r_{rot}:\text{wrist rotation},\tau:\text{translation},\beta:\text{shape}

优化目标

sample: {XQ,XA}\{\mathcal X_Q, \mathcal X_A\}

θ=arg minθi=1NL(Θ)=j=1LlogPΘ(yjXQ,y^1:j1)\theta^*=\argmin\limits_\theta\sum\limits_{i=1}^N \mathcal L(\Theta)=-\sum\limits_{j=1}^{L}\log P_\Theta(y_j|\mathcal X_Q,\hat y_{1:j-1})

Θ:\Theta: fundanmental model
XA={yi}:\mathcal X_A=\{y_i\}: target text and motion tokens

Physical Space Alignment

  • 解决多源视频数据在相机内参、坐标系、3D感知缺失等方面的异构性
  • 通过统一坐标系统与物理对齐,赋予模型3D空间推理能力

Post-training

  • 将预训练好的基础模型适配到具体机器人任务
  • 当前采用轻量 MLP 投影头 + 可学习动作查询(action queries) 的方式实现迁移
  • 未来计划探索更复杂的迁移策略(如扩散策略、离散动作 token)

overview

Challenge & Solution

1. 预训练数据构建困难(Pretraining Data Curation)

挑战
当前机器人操作数据集(如 Open X-Embodiment、AgiBot)规模小、成本高,尤其缺乏手指级精细动作标注;而互联网上的人类视频虽规模大,但存在视角不一致、标注稀疏、相机参数异构等问题,难以直接用于训练。

解决方案
构建 UniHand 数据集,通过以下策略整合异构数据源:

  • 融合三类数据:动作捕捉(motion capture)、VR录制(如 Apple Vision Pro)、RGB 视频伪标注(使用 HaMeR 等模型估计 3D 手姿);
  • 使用 MANO 参数标准化 所有手部动作;
  • 采用 弱透视对齐(weak-perspective alignment)统一不同相机下的 3D 表示;
  • 最终覆盖 150+ 任务、1000+ 小时视频、1.5 亿+ 指令样本

2. 手部动作需高精度量化(Precise Hand Quantization)

挑战
连续的手部动作(如 MANO 参数)需离散化以适配自回归语言模型架构,但传统量化方法易丢失毫米级精度,影响动作生成质量。

MRT×DEncoderzRTα×DVQ{m1,...mn}DecoderM^\mathcal M\in \mathbb R^{T \times D}\xrightarrow{Encoder} z\in \mathbb R^{\lceil \frac{T}{\alpha} \rceil \times D} \xrightarrow{VQ} \{m_1,...m_n\}\xrightarrow{Decoder} \hat {\mathcal M}

解决方案
提出 Part-Level Motion Tokenization(分部件运动分词):

  • 将手部分为 手腕(wrist)和 手指(fingers)两部分,分别建模;
  • 基于 Grouped Residual Quantization(GRQ) 构建运动分词器;
  • 引入 手腕重建损失项(Lwrist)提升全局位姿精度;
  • 实现 毫米级重建误差,同时生成与 LLM 兼容的离散 token。

3. 多模态跨模态推理复杂(Unified Cross-Modal Reasoning)

挑战
需联合建模视觉场景、自然语言指令与精细手部动作之间的复杂依赖关系,远比传统 LMM 的图文对齐更困难。

解决方案
采用 统一自回归序列建模

  • 将图像 patch、文本 token、动作 token 拼接为单一序列;
  • 使用 共享注意力机制(shared attention)实现跨模态交互;
  • 视觉 token 替换 <IMG_CONTEXT> 占位符,动作 token 用 <MOT>...</MOT> 包裹;
  • 模型可学习如“拿起牙刷” → 精确手指轨迹的映射。

4. 人-机动作迁移困难(Adaptive Robot Control Transfer)

挑战
人类手与机器人手在自由度、形态、物理约束上存在差异,无法直接迁移动作。

解决方案
设计轻量级 后训练(post-training):

  • 冻结预训练主干,仅训练一个 MLP 投影头(MLP projector);
  • 引入 可学习动作查询(learnable action queries)作为动作块(action chunk);
  • 利用人类动作作为 先验知识,指导机器人控制;
  • 实验证明该策略显著提升 数据效率泛化能力

Physical Instruction Tuning

Pretraining

Model Architecture

  • Visual Encoder: InternViT-300M
  • projector: 2-layer MLP
  • 每个时刻处理 image-text 对,预测手部运动序列
  • 参考 《How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites.》 使用动态高分辨率策略
  • 参考 《Scaling large motion models with million-level human motions.》,在 LMM 中无缝链接手部动作(使用 VQ )和 <MOT> token

Hand Motion Tokenization

motion feature

1. MANO-D51

  • 维度:51
  • 组成
    • 关节角(finger joint angles):
      • 表示为轴角(axis-angle)形式,共 15 个关节 × 3 维 = 45 维
    • 手腕旋转(wrist rotation):
      • 轴角形式,3 维
    • 手腕平移(wrist translation):
      • 3D 位置,3 维
  • 总维度:45 + 3 + 3 = 51
  • 特点
    • 轴角表示简洁,适合大角度旋转(如手腕);
    • 但在手指精细旋转上存在数值不稳定性(如万向节锁问题)。

2. MANO-D99

  • 维度:99
  • 组成
    • 关节角:使用 6D 旋转表示(6D rotation representation),15 × 6 = 90 维
    • 手腕旋转:6D 表示,6 维
    • 手腕平移3 维
  • 总维度:90 + 6 + 3 = 99
  • 特点
    • 6D 旋转是连续、无奇点的表示,更适合建模 精细手指动作
    • 数值更稳定,利于神经网络学习;
    • 但对大角度旋转(如手腕)可能不如轴角紧凑。

3. MANO-D109

  • 维度:109
  • 组成
    • 在 MANO-D99 基础上,增加手部形状参数 β(shape parameters)
    • β ∈ ℝ¹⁰,描述个体手型差异(如胖瘦、长短)
  • 总维度:99 + 10 = 109
  • 特点
    • 理论上更完整,但实验发现 引入 β 会降低动作生成性能(见 Table 6);
    • 原因:形状变化在短时动作中影响小,反而增加噪声;
    • 因此,Being-H0 在训练中 固定 β 为序列首帧值,仅建模动作动态。

4. MANO-D114

  • 维度:114
  • 组成
    • 基于 MANO-D51(轴角表示);
    • 额外加入 21 个关节点的 3D 位置(joint positions):21 × 3 = 63 维
    • 注意:关节位置 仅用于训练时的辅助监督(auxiliary loss),推理时不使用
  • 总维度:51(原始)+ 63 = 114
  • 目的
    • 通过关节位置提供几何约束,提升重建质量;
    • 尤其有助于提升 相对姿态精度(PA-MPJPE)。

5. MANO-D162Being-H0 最终采用

  • 维度:162
  • 组成
    • 基于 MANO-D99(6D 旋转);
    • 同样加入 21 个关节点的 3D 位置(63 维)
  • 总维度:99 + 63 = 162
  • 优势
    • 6D 旋转 → 更好建模手指精细动作;
    • 关节位置辅助 → 提升几何一致性;
    • 实验表明:虽然整体 MPJPE 略高于 MANO-D114(因手腕用 6D 不如轴角),但在 语义对齐(M2T R@3)和 生成质量 上表现最佳。
  • 结论:模型更关注 功能性动作语义 而非绝对手腕位置,因此选择 MANO-D162。

补充说明:为何混合表示(手腕用轴角 + 手指用 6D)未被采用?

论文提到:

“We will explore the combination of axis-angle feature for wrist and 6D rotation for fingers in future work.”

说明作者意识到 混合表示可能更优(手腕用轴角,手指用 6D),但当前实现为统一表示,未来将探索更精细的分部件参数化。


总结对比表

表示方式 旋转表示 包含 β? 包含关节位置? 总维度 适用场景
MANO-D51 轴角 51 手腕主导任务
MANO-D99 6D 99 手指精细动作
MANO-D109 6D 109 完整建模(但性能下降)
MANO-D114 轴角 (辅助) 114 几何约束强
MANO-D162 6D (辅助) 162 Being-H0 最终选择

这种对 MANO 表示的细致分析,体现了 Being-H0 在 动作建模精度语义泛化能力 之间的权衡设计,是其实现毫米级手部动作生成的关键基础之一。

Grouped Residual Quantization

GRQ (Grouped Residual Quantization) 架构
GRQ 是一种先进的向量量化技术,旨在提高量化表示的表达能力和重建精度。

GRQ

  • 基础结构:它基于 残差向量量化 (Residual Vector Quantization, RVQ)。RVQ 通过多层 codebook 来逐步逼近输入特征。第一层捕捉主要信息,后续层则对前一层的残差进行编码,从而实现更精细的表示。
  • 分组 (Grouping):首先,将编码器输出的特征图 zz 的 通道维度 (channel dimension) 划分为 nn 个独立的组,,论文中默认 n=2n=2 (运动幅度大、模式相对简单的手腕,和运动精细、复杂的手指)。
  • 独立量化 (Independent Quantization):对每个组 z(g)z(g),独立地应用一个完整的 RVQ 量化器。
  • 优势:这种分组策略允许模型为特征的不同语义部分学习专门的量化表示,从而提高了整体的表达能力。

Part-Level Motion Tokenization

手部动作 m={θ,rrot,τ,β}m=\{\theta,r_{rot},\tau,\beta\} 拆分

  • 手腕 {rrot,τ}\{r_{rot}, \tau\}
  • 手指 {θ,β}\{\theta, \beta\}

分开进行 tokenization

Multimodal Integration

  1. 文本 Token
  • 处理方式与标准的大型语言模型(LLM)完全相同。
  • 使用标准的文本分词器(如 BPE)将输入的指令或问题转换为文本 token。
  1. 视觉 Token
    视觉信息的处理借鉴了 InternVL 的设计,并做了动态适配:
  • 动态分块(Dynamic Patching):为了处理不同分辨率和内容复杂度的图像,模型会将输入图像动态地分割成 N 个图像块(patches)。
  • 保留全局上下文:除了细节块,还会生成一个下采样的缩略图(thumbnail),以保留图像的全局语义信息。
  • 编码与投影:这些图像块通过一个预训练的视觉编码器(InternViT-300M)提取特征,然后通过一个 MLP 投影层映射到与文本和动作 token 相同的嵌入空间。
  • 结构化标记:视觉 token 序列被包裹在特殊的边界标记 <IMG></IMG> 之间。在输入序列中,有一个占位符 <IMG_CONTEXT>,在实际处理时会被真实的视觉 token 序列动态替换。
  1. 动作 Token
    动作信息(即手部运动)通过 Part-Level Motion Tokenizer(基于 GRQ)进行处理
  • 离散化:连续的 3D 手部运动序列(MANO 参数)首先被 Part-Level Motion Tokenizer 量化为一系列离散的整数 ID。
  • 嵌入:这些整数 ID 被映射到预定义的动作 codebook 中的嵌入向量。
  • 结构化标记:与视觉 token 类似,动作 token 序列也被包裹在特殊的边界标记 <MOT></MOT> 之间,形成一个清晰的“动作块”。
  • 时序密度:动作块的密度为 每秒 128 个 token,这保证了对精细动作的高保真建模。

一旦所有模态都被转换为 token,它们就会被拼接(concatenated)成一个单一的、统一的输入序列 S={si}S = \{s_i\}

tuning

示例

假设输入是一个指令:“用右手从杯子里拿起牙刷”,并附带一张场景图片。

  1. 文本编码:“用右手…” 被文本分词器转换为一系列文本 token。
  2. 视觉编码:输入图片被动态分块、编码,并替换输入序列中的 <IMG_CONTEXT> 占位符。
  3. 序列构建:模型接收到的完整输入序列可能如下所示:
    [文本 token...] <IMG> [视觉 token...] </IMG> ...
    
  4. 自回归生成:模型开始逐个预测下一个 token。在遇到需要生成动作的地方,它会先输出 <MOT>,然后预测一系列动作 token(这些 token 对应精细的手指和手腕运动),最后以 </MOT> 结束。
  5. 解码:生成的动作 token 序列被送入 Motion Tokenizer 的解码器,转换回连续的 MANO 参数,从而得到可执行的 3D 手部运动轨迹。

Dataset

UniHand 是迄今为止规模最大的以手部为中心的多模态指令数据集。其核心目标是解决现有机器人数据集中灵巧手操作数据稀缺的问题,通过整合异构来源,为模型提供海量、多样化的“视觉-语言-动作”三元组监督信号。

  1. 动作捕捉数据集(Motion Capture Datasets):

    • 特点:在受控环境(如实验室)中使用多视角相机和传感器捕获,提供高精度的3D手部姿态真值
    • 代表数据集:OAKINK2(双手机器人操作)、HOI4D、H2O 等。
    • 优势/劣势:精度高,但场景和任务多样性有限。
  2. VR录制数据集(VR-Recorded Datasets):

    • 特点:利用 VR 设备(如 Apple Vision Pro)的内置摄像头和 SLAM 技术,在更自然的环境中记录人手与物体的交互。
    • 代表数据集:EgoDex(包含194种操作任务,如系鞋带、叠衣服)。
    • 优势/劣势:兼具良好的3D真值更高的场景多样性
  3. 伪标注数据集(Pseudo-Annotated Datasets):

    • 特点:利用现成的单目手部姿态估计算法(如 HaMeR)从海量的“野外”(in-the-wild)网络视频(如 Taste-Rob)中自动生成伪3D标签
    • 优势/劣势可扩展性极强,场景和任务多样性最高,但标签存在一定噪声。

总体规模

  • 原始数据:聚合自11个基准数据集,包含 44.4万条任务轨迹,覆盖 1.3亿帧 视频,总计 超过1155小时
  • 指令数据:通过自动标注流程,生成了 超过1.65亿个 “视觉-语言-动作”指令对。
  • 训练子集 (UniHand-2.5M):由于计算成本限制,论文从中采样了250万个高质量、任务和来源平衡的样本用于模型预训练。

数据处理流程

为了将这些异构数据统一为高质量的训练数据,论文设计了一套精细的数据处理流水线:

  1. 手部姿态标准化(Hand Pose Standardization):

    • 目标:统一所有数据源的手部表示。
    • 方法:将所有手部姿态统一转换为 MANO 参数(包含关节角度 θ、手腕旋转 rrot、平移 τ 和形状 β)。对于只有3D关节点的数据,通过优化反推MANO参数;对于只有RGB视频的数据,则使用 HaMeR 进行估计,并进行后处理(如左右手校正、时间平滑)以提高可靠性。
  2. 任务描述标注(Task Description Labeling):

    • 目标:为原始视频-动作对生成丰富、结构化的语言指令。
    • 方法:采用分层标注框架
      • 视频分块:将长视频分割为最长10秒的非重叠块。
      • 两级标注:使用强大的视觉语言模型(Gemini-2.5-Flash-Lite)进行标注。
        • 块级(Chunk-level):生成高层次的任务指令和摘要。
        • 秒级(Per-second):生成更精细的指令和描述,包含接触状态、物体属性、手部细节等。
      • 双手标注:分别标注双手的整体动作和单手动作。
  3. 指令数据生成(Instructional Data Generation):

    • 目标:构建多样化的训练任务。
    • 方法:基于上述标注,设计了三种核心任务模板,并使用 Gemini-2.5-Pro 生成大量变体:
      • 指令式动作生成(Instructional Motion Generation):给定图像和指令,生成手部动作序列。
      • 动作翻译(Motion Translation):给定图像和动作序列,生成文字描述。
      • 上下文动作预测(Contextual Motion Prediction):给定历史动作、当前图像和指令,预测后续动作。
  4. 视角不变性(View-Invariant Motion Distribution Balancing):

    • 目标:解决不同数据源因相机视角不同导致的分布偏差问题,提升模型泛化能力。
    • 方法:对小规模数据源进行数据增强,但保持弱透视投影的一致性
      • 深度缩放(Depth Scaling):随机缩放手部在相机坐标系中的深度,并同步缩放图像。
      • 平面内旋转(In-Plane Rotation):绕相机光轴旋转手部姿态和图像。

Experiments

主要分为 手部运动生成/理解真实机器人操作 两大板块。

实验设置

  • 模型规模:测试了 1B、8B 和 14B 三种规模的 InternVL3 主干。
  • 评估数据集:从 UniHand 中保留了 5% 的数据作为测试集,并分为:
    • Head Split:主要来自 EgoDex,代表常见、主导的运动模式。
    • Tail Split:来自 TACO、HOI4D 等,代表长尾、多样化的运动模式,用于测试泛化能力。
  • 评估任务
    • 视觉引导的手部运动生成(Visual-Grounded)
    • 上下文手部运动生成(Contextualized)
    • 手部运动翻译(Hand Motion Translation)
  • 评估指标
    • 空间精度:MPJPE(关节位置误差)、MWTE(手腕平移误差)、PA-MPJPE(经Procrustes对齐后的误差)。
    • 语义一致性:M2T R@3 / T2M R@3(动作-文本互检索准确率)、FID(动作分布相似度)。
    • 结构有效性:Valid Rate(生成的动作块是否符合 <MOT>...</MOT> 格式)。

实验结果

手部运动生成与翻译

  • 模型规模效应:更大的模型(8B, 14B)在所有指标上均显著优于小模型(1B)和 baseline GR00T N1.5。这体现在更低的空间误差(MPJPE, MWTE)和更高的语义一致性(M2T R@3)。
  • 泛化能力:Being-H0 在 Tail Split 上的性能提升尤为显著,证明了其从大规模、多样化数据中学习到的强大泛化能力。
  • 结构化生成:大模型(8B, 14B)的 Valid Rate 接近或达到 100%,说明其能可靠地生成符合格式要求的动作序列。

长序列运动生成

  • 挑战:随着预测时长增加(6-10秒),所有模型的误差都会累积增大。
  • 优势:Being-H0(尤其是8B和14B)在长序列生成中依然保持了相对最优的性能,证明了其在时间上的连贯性建模能力。

消融实验

  • Part-Level Motion Tokenizer 的优越性:与统一量化整个手部的方案(4-Groups, 16-Layers)相比,分开量化手腕和手指的方案在重建和生成任务上均取得最佳效果。
  • MANO-D162 特征的有效性:尽管轴角(axis-angle)在整体重建误差上略优,但使用 6D旋转(6D rotation)的 MANO-D162 特征在下游生成任务中表现更好,因为它能更好地建模精细的手指动作。
  • 数据配方的重要性
    • 视角平衡(w/o Balance):移除后,模型在 Tail Split 上性能大幅下降,证明了该策略对泛化至关重要。
    • 辅助任务(w/o Translate/Context):移除动作翻译和上下文预测任务后,核心的运动生成任务性能也会下降,说明这些辅助任务能提供有价值的监督信号。
  • 数据规模效应 (Figure 9):模型性能随着训练数据量的增加而稳步提升,验证了大规模数据的价值。

真实机器人实验

  • 实验平台:Franka 机械臂 + Inspire 灵巧手 + RealSense 相机。
  • 对比基线
    • GR00T N1.5:同样是基于人类视频预训练的 VLA,但采用隐式学习。
    • InternVL3:与 Being-H0 架构相同,但没有进行手部运动预训练和物理对齐。
  • 评估任务:包括抓取放置、操作铰链物体(工具箱、杯盖)、处理柔性物体(展开衣服)、精确控制(倒水)等。
  • 关键结果
    • 成功率Being-H0 在所有任务上均取得了最高的成功率
    • 泛化能力:在 Pick-Place-Toy 任务中,Being-H0 能成功处理未见过的物体杂乱场景,而 GR00T 表现明显下降。
    • 失败模式分析:InternVL3(无预训练)表现出典型的精度不足问题,如无法准确对齐杯盖、抓取不稳、操作高度错误等。而 Being-H0 则能执行稳健且精确的操作。
    • 数据效率:Being-H0 仅用25%的演示数据,就能达到或超过基线模型(InternVL3)使用100%数据的性能。这极大地降低了真实机器人部署的数据收集成本


电波交流