LatentHOI: On the Generalizable Hand Object Motion Generation with Latent Hand Diffusion.

Introduction

Hand-Object Interaction (HOI)是一个极具挑战性任务:手部自由度高、与物体接触状态复杂且动态变化,微小的不合理(如穿透、抖动、无接触)极易被察觉。

  • 现有方法大多在训练中见过的物体上表现良好,但难以泛化到未见物体几何形状
  • 根本原因在于数据稀缺
    • 高质量 HOI 数据集规模小( GRAB 仅含 51 个物体、1.3k 序列),远小于人体动作数据集( AMASS 含344人、11.2k 序列)。
    • 数据采集成本高、遮挡严重、标注困难。

尽管扩散模型在人体动作生成中取得成功,但直接将其用于HOI任务容易过拟合,导致在未见物体上生成穿透、抓握不合理或丢失物体等问题。多数现有工作假设物体是“已知的”,对未见物体泛化能力研究较少。

该文章提出LatentHOI,基于文本驱动来优化未见物体手-物交互运动生成效果。

  • 核心思想:将生成任务解耦为:
    • 高层时序运动(手与物体的全局轨迹)
    • 低层空间抓握(每帧精细的手部姿态)
  • 采用两阶段架构:
    • GraspVAE:单帧条件变分自编码器,学习抓握的低维潜在表示
    • Latent Diffusion Model:在该正则化潜在空间中生成时序运动,避免直接在高维姿态空间扩散,从而提升泛化能力。

Related Work

Hand-Object Interaction Synthesis(手-物交互合成)

现有HOI合成方法主要分为两类:

(1) 运动学方法(Kinematic Methods)

  • 基于监督学习,依赖大规模HOI数据集(如GRAB、DexYCB等)。
  • 代表性工作:
    • 使用条件变分自编码器(CVAE)(GOAL, Saga) 或隐式表示建模身手-物抓握。
    • IMoS:根据意图和物体形状生成手-物运动,但假设初始抓握已知,且物体运动通过后处理添加,无法端到端联合生成。
    • CAMS、GrIP:给定手或物体的全局轨迹,预测精细手部姿态;但依赖预设轨迹,泛化性受限。

局限:多数方法假设物体是训练中见过的,或需后处理估计物体轨迹,缺乏对未见物体的端到端泛化能力

(2) 物理仿真方法(Physics-based Methods)

  • 基于物理引擎和强化学习生成符合物理规律的交互。
  • 代表性工作:
    • D-Grasp:学习用MANO手模型抓取物体并移动到目标位姿。
    • ArtiGrasp:扩展到可关节物体(如门、剪刀)。

局限:虽然物理指标更好,但生成质量通常低于运动学方法,且难以泛化到几何差异大的未见物体

LatentHOI 端到端联合预测手与物体姿态,无需后处理,且在未见物体上表现出强泛化能力。


Grasp Generation(抓握生成)

聚焦于单帧抓握姿态生成(即给定物体,生成合理手部姿态):

  • GrabNet:使用BPS(Basis Point Set)表示物体,通过粗粒度 VAE + 细化网络生成抓握。
  • FLEX:利用身体与手部先验预测抓握。
  • ContactOpt / Grasping Field:预测接触图或符号距离场(SDF),再通过优化或后处理解码出手部姿态。
  • GraspTTA:使用 CVAE 建模手-物接触一致性。

LatentHOIGraspVAE是单阶段、端到端的,不需要一致性模块无需接触图或后优化,且左右手共享参数,提升数据效率。


Motion Diffusion Models(运动扩散模型)

扩散模型在人体运动生成中取得成功:

  • MDM、MLD、MotionDiffuse:用于全身人体运动生成。
  • HOI扩散模型(如HOI-Diff、InterDiff、CG-HOI):生成全身与物体交互(如搬椅子),但关注粗粒度动作,忽略手指级细节
  • MLD:在潜在空间中进行扩散以加速生成,但动机是效率而非泛化

LatentHOI 也使用潜在扩散,但动机是解决数据稀缺下的泛化问题,专为高自由度手部与多样物体交互设计。


3D Hand-Object Interaction Motion Generation(3D手-物交互运动生成)

近期工作多沿用人体运动生成范式,采用多阶段设计

  • GeneOH Diffusion:三阶段生成手轨迹、空间关系、时间关系。
  • InterHandGen:级联左右手扩散模型。
  • Text2HOI:引入文本和接触图中间表示。

共同缺陷:大多在已见物体上评估,未系统测试未见物体泛化能力

  • DiffH2O:使用引导扩散提升物体泛化,但依赖参考帧。
  • GraspXL:基于仿真 + RL 学习泛化抓握策略,需复杂模拟环境。

共同缺陷:依赖仿真环境参考帧

Method

overview

Problem Definition

  • 输入:条件 CC,包括:
    • 物体的规范点云(canonical point cloud,如一个杯子的 3D 形状)
    • 文本描述(text prompt,如 “drink from the mug”)
  • 输出:生成长度为 NN 帧的手-物交互序列:
    • 手部姿态序列 H1:NH_{1:N}(可为单手或双手)
    • 物体 6D 位姿序列 O1:NO_{1:N}

表示方式

  • 物体 Oi=(Oiϕ,Oiγ)O_i = (O^\phi_i, O^\gamma_i)
    • OiϕR6O^\phi_i \in \mathbb{R}^6:6D旋转表示
    • OiγR3O^\gamma_i \in \mathbb{R}^3:平移
  • 手部 Hi=(Hiϕ,Hiγ)H_i = (H^\phi_i, H^\gamma_i)
    • HiϕR16×6H^\phi_i \in \mathbb{R}^{16 \times 6}:MANO 模型参数(1个全局旋转 + 15个关节旋转),同样用6D表示
    • HiγR3H^\gamma_i \in \mathbb{R}^3:手根节点(手腕)位置,以物体为中心的相对偏移,实验证明此表示更稳定
  • 条件编码
    • 文本 → CLIP 编码
    • 物体点云 → BPS(Basis Point Set)编码

作者强调使用最小表示集(minimal set),不依赖 SDF 等冗余表示,仍能取得良好效果。


Decomposing Temporal and Spatial Generation(时空解耦)

动机

  • 直接用扩散模型建模 P(H1:N,O1:NC)P(H_{1:N}, O_{1:N} | C) 在小规模 HOI 数据上极易过拟合,导致未见物体泛化差。

解耦策略

将生成分解为两部分:

  1. 高层(Temporal):手/物的全局轨迹(手腕和物体位姿)
  2. 低层(Spatial):每帧的精细手部关节姿态

引入潜在抓握代码 ZiR16Z_i \in \mathbb{R}^{16} 来编码每帧的空间抓握信息。

概率分解

P(H1:N,O1:NC)=Pθ(Z1:N,O1:N,H1:NγC)i=1NPθ(HiϕZi,Oi,Hiγ,C)dZ1:NP(H_{1:N}, O_{1:N} | C) = \int P_\theta(Z_{1:N}, O_{1:N}, H^\gamma_{1:N} | C) \cdot \prod_{i=1}^N P_\theta(H^\phi_i | Z_i, O_i, H^\gamma_i, C) dZ_{1:N}

  • 第一部分 Pθ(Z1:N,O1:N,H1:NγC)P_\theta(Z_{1:N}, O_{1:N}, H^\gamma_{1:N} | C):由潜在扩散模型建模,生成时序轨迹和潜在代码。
  • 第二部分 Pθ(HiϕZi,Oi,Hiγ,C)P_\theta(H^\phi_i | Z_i, O_i, H^\gamma_i, C):由GraspVAE 解码器建模,逐帧生成精细手部姿态。

双重正则化机制

  1. 结构正则化:强制抓握生成依赖于物体位姿和手腕位置,形成条件依赖。
  2. 潜在空间正则化:在低维、正则化的潜在空间 ZZ 中进行扩散,而非高维姿态空间,显著降低过拟合风险。

Two-staged Training(两阶段训练)

阶段一:训练 GraspVAE(单帧模型)

graspvae

  • 架构:标准 VAE,含编码器 EE 和解码器 DD
  • 输入(编码器):
    • 手部姿态 HiϕH^\phi_i
    • 手腕相对位置 HiγH^\gamma_i
    • 物体位姿 OiO_i(通过将规范点云旋转对齐,并将 HiγH^\gamma_i 作为每个点的额外特征)
  • 输出(解码器):重建 H^iϕ=D(Zi,Hiγ,Oi)\hat{H}^\phi_i = D(Z_i, H^\gamma_i, O_i)
  • 损失函数

    L=LELBO+αVMANO(H^iϕ,Hiγ)2\mathcal{L} = -\mathcal{L}_{\text{ELBO}} + \alpha \| V - \text{MANO}(\hat{H}^\phi_i, H^\gamma_i) \|^2

    • LELBO\mathcal{L}_{\text{ELBO}}:标准 VAE 证据下界(含 KL 散度正则化到标准正态分布)
    • 额外加入手部网格顶点重建损失,提升几何精度
  • 细节
    • 随机旋转增强:解决小数据集下的模式崩溃(mode collapse)
    • 左右手共享参数:将左手数据镜像后与右手共享同一 VAE 骨干,缓解数据不平衡

阶段二:训练 Latent Diffusion Model(序列模型)

  • 输入:冻结的 GraspVAE 编码器将训练集序列编码为 Z1:NZ_{1:N}
  • 扩散目标:学习联合分布 Pθ(Z1:N,O1:N,H1:NγC)P_\theta(Z_{1:N}, O_{1:N}, H^\gamma_{1:N} | C)
  • 潜在采样策略
    • 从编码器得到 μi,σi\mu_i, \sigma_i
    • 采用 共享随机噪声Zi=μi+σiηZ_i = \mu_i + \sigma_i \cdot \eta,其中 ηN(0,I)\eta \sim \mathcal{N}(0, I) 对所有帧共享
    • 优势:促进潜在表示在时间维度上平滑过渡,生成更流畅运动
  • 扩散目标函数(标准去噪损失):

    LLDM=E[ϵϵθ(Z1:N,t,O1:N,t,H1:N,tγ,C,t)2]\mathcal{L}_{\text{LDM}} = \mathbb{E} \left[ \| \epsilon - \epsilon_\theta(Z_{1:N,t}, O_{1:N,t}, H^\gamma_{1:N,t}, C, t) \|^2 \right]

  • 采样时:使用 Classifier-Free Guidance 提升生成质量

Sampling(推理流程)

  1. 从标准高斯分布采样初始噪声 (Z1:N,T,O1:N,T,H1:N,Tγ)(Z_{1:N,T}, O_{1:N,T}, H^\gamma_{1:N,T})
  2. 通过 T 步反向扩散,得到干净的 (Z1:N,O1:N,H1:Nγ)(Z_{1:N}, O_{1:N}, H^\gamma_{1:N})
  3. 对每帧 ii,将 (Zi,Oi,Hiγ)(Z_i, O_i, H^\gamma_i) 输入 GraspVAE 解码器,得到 HiϕH^\phi_i
  4. 组合得到完整序列 (H1:N,O1:N)(H_{1:N}, O_{1:N})

Experiment

Dataset

  • GRAB(双手操作):

    • 原始:51个物体,1.3k序列。
    • 划分:47个物体用于训练,4个物体留作未见测试集
    • 序列从首次接触帧开始,下采样至20fps,统一截断/填充至160帧。
    • 测试包含 17个(文本意图,物体)对。
  • OakInk(未见物体):

    • 从其大规模物体库中人工挑选100个未见物体(20类),无任何训练数据
    • 将这些物体与GRAB中的文本配对,构成 212个测试对
    • 用于极端OOD(out-of-distribution)泛化测试。
  • DexYCB(单手抓握):

    • 20个物体。
    • 划分:16训练,4个未见物体测试
    • 序列从第1帧开始,填充至96帧。

所有模型仅在GRAB或DexYCB的训练集上训练,在未见物体上直接测试,不微调。

Baseline

  • IMoS :需初始抓握帧,无法用于OakInk(无运动数据)。
  • MDM :标准人体运动生成扩散模型,直接迁移到HOI。
  • MLD :潜在扩散模型(用于全身运动),作为潜在空间对比。
  • Text2HOI :文本驱动HOI生成。

Metrics

论文设计了一套物理合理性 + 多样性的综合指标:

指标 全称 含义 趋势
IV Interpenetration Volume 手-物穿透体积(cm³) ↓ 越小越好
ID Interpenetration Depth 最大穿透深度(cm)
CR Contact Ratio 接触顶点占比(%) ↑ 越高越好
IVU IV per contact Unit 单位接触面积的穿透体积(cm³/cm²) 综合指标
Phy Physical Plausibility 物体是否被“抬起”(Z>0)的接触帧比例 ↑ 粗略物理合理性
SD/OD Sample/Overall Diversity 生成样本的轨迹多样性(L2距离) ↑ 避免模式崩溃

其中 IVU 是关键创新指标:单纯低IV可能因“手远离物体”导致,高CR可能因“严重穿透”导致。IVU = IV / 接触面积,能更公平衡量接触质量


双手操作任务 (GRAB & OakInk)

数据集 模型 IV ↓(穿透体积) ID ↓(穿透深度) CR ↑(接触比率) IVU ↓(单位接触穿透) Phy ↑(物理合理性)
GRAB(未见物体) Real(真实动作) 4.97 / 1.20 0.92 / 0.18 8.21 / 1.56 0.12 98.68
IMoS 10.38 / – 1.25 / – 4.61 / – 0.53 84.88
MDM 9.12 / 2.61 1.24 / 0.51 8.21 / 1.29 0.19 89.81
MLD 9.62 / 3.14 1.06 / 0.49 10.23 / 0.87 0.24 85.68
Ours(LatentHOI) 6.38 / 1.66 0.77 / 0.29 11.94 / 1.11 0.10 96.16
OakInk(极端OOD) Text2HOI 15.19 / 11.54 2.14 / 1.39 11.24 / 6.33 0.26 82.58
MDM 8.46 / 2.47 1.69 / 0.34 4.97 / 1.02 0.20 60.89
MLD 9.15 / 4.25 1.79 / 0.56 5.36 / 0.77 0.29 46.41
Ours(LatentHOI) 7.22 / 3.11 1.10 / 0.37 7.80 / 1.73 0.14 71.24

单手抓握任务 (DexYCB)

模型 IV ↓ ID ↓ CR ↑ IVU ↓ Phy ↑
GT(真实) 5.89 2.38 9.91 0.12 96.30
MDM 7.78 2.10 8.87 0.18 86.22
Ours(LatentHOI) 7.70 2.01 11.98 0.13 88.52

Ablation Study

变体 IV ↓ ID ↓ CR ↑ IVU ↓ 结论
完整模型 3.78 0.47 6.72 0.10
VAE w/o 旋转增强 4.17 0.51 6.60 0.14 旋转增强防模式崩溃
扩散模型直接在姿态空间(w/o latent) 4.99 0.60 6.53 0.13 潜在空间扩散更优
扩散使用独立噪声 Zi=μi+σiηiZ_i = \mu_i + \sigma_i \cdot \eta_i 4.51 0.51 6.52 0.12 共享噪声 η\eta 提升平滑性
扩散使用均值 Zi=μiZ_i = \mu_i 5.43 0.61 6.76 0.13 随机性对多样性必要


电波交流