MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

AI Generated


  • 一张参考图 → 驱动视频 → 生成新视频
  • 一句话卖点:首次用“4D 运动 Token”而非 2D 姿态图做人类视频动画,FID-VID 提升 65 %。

研究背景

任务定义

  • Human Image Animation:给定参考图 + 驱动姿态序列,合成目标视频。

现有方法局限

  • 依赖 2D-rendered pose image (skeleton、depth、mesh)。
  • 缺陷
    • 丢失 3D/时间信息 → 物理不真实
    • 像素级对齐 → 身份漂移、失真。

直观问题

能否直接对“原始 4D 运动”建模?


贡献总览

  • 首次端到端 pipeline:4D 运动 Token → DiT 动画。
  • 4DMoT:把 SMPL 序列离散化成紧凑、鲁棒的 4D token。
  • MV-DiT:在 DiT 中加入 4D Motion Attention + 4D RoPE。
  • SOTA:FID-VID 6.98,开放世界泛化好。

方法精讲

整体框架

[参考图]+[驱动视频] → 4DMoT → Motion Tokens → MV-DiT → 合成视频

Motion Tokenizer (4DMoT)

  • 输入:SMPL 3D joints (f×j×3f×j×3)
  • 结构:VQ-VAE(2D Conv 沿时间+关节轴)
  • Loss:重建 L1 + commitment
  • 输出:8 k 离散 codebook,token 维度 3072

DiT

  • Backbone:CogVideoX-5B-T2V(去掉文本分支)
  • 关键设计
    • Reference Image:repeat & concat → 与视频 token 自注意力融合
    • 4D RoPE:t, x, y, z 四维旋转位置编码
    • 4D Motion Attention:Q=vision token,K/V=motion token
    • Motion-aware CFG:learnable unconditional motion token

推理流程

DDIM 50 步,单卡 H100 约 90 s,CFG scale=3.0


实验与结果

数据集

  • 自采 30 k 舞蹈视频 → 过滤得 5 k 高质量 SMPL-video 对

主表对比(TikTok 335-340)

  • FID-VID 6.98(第二好 20.6)
  • FVD 140.6(第二好 144.6)

定性展示

  • 多风格:真人 / 动漫 / 像素风 / 墨线画
  • 半/全身、单/多人、极端姿态(体操、绿巨人)

消融实验

  • 4D MT 去掉量化 → FID-VID ↑ 2.8
  • 4D RoPE 去掉 → FVD ↑ 95
  • CFG scale 3 vs 9:动作更准但伪影↑

局限 & 风险

  • 极端比例角色、精细手势仍失真
  • 潜在滥用:身份伪造、版权侵权 → 计划加水印+用户同意机制

结论与展望

  • 提出 4D 运动 Token 新范式,显著提升开放世界动画质量
  • 下一步:更大模型、手部/相机控制、实时化

代码 & Demo:https://github.com/DINGYANB/MTVCrafter


电波交流