MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation
AI Generated
- 一张参考图 → 驱动视频 → 生成新视频
- 一句话卖点:首次用“4D 运动 Token”而非 2D 姿态图做人类视频动画,FID-VID 提升 65 %。
研究背景
任务定义
- Human Image Animation:给定参考图 + 驱动姿态序列,合成目标视频。
现有方法局限
- 依赖 2D-rendered pose image (skeleton、depth、mesh)。
- 缺陷
- 丢失 3D/时间信息 → 物理不真实
- 像素级对齐 → 身份漂移、失真。
直观问题
能否直接对“原始 4D 运动”建模?
贡献总览
- 首次端到端 pipeline:4D 运动 Token → DiT 动画。
- 4DMoT:把 SMPL 序列离散化成紧凑、鲁棒的 4D token。
- MV-DiT:在 DiT 中加入 4D Motion Attention + 4D RoPE。
- SOTA:FID-VID 6.98,开放世界泛化好。
方法精讲
整体框架
[参考图]+[驱动视频] → 4DMoT → Motion Tokens → MV-DiT → 合成视频
Motion Tokenizer (4DMoT)
- 输入:SMPL 3D joints ()
- 结构:VQ-VAE(2D Conv 沿时间+关节轴)
- Loss:重建 L1 + commitment
- 输出:8 k 离散 codebook,token 维度 3072
DiT
- Backbone:CogVideoX-5B-T2V(去掉文本分支)
- 关键设计
- Reference Image:repeat & concat → 与视频 token 自注意力融合
- 4D RoPE:t, x, y, z 四维旋转位置编码
- 4D Motion Attention:Q=vision token,K/V=motion token
- Motion-aware CFG:learnable unconditional motion token
推理流程
DDIM 50 步,单卡 H100 约 90 s,CFG scale=3.0
实验与结果
数据集
- 自采 30 k 舞蹈视频 → 过滤得 5 k 高质量 SMPL-video 对
主表对比(TikTok 335-340)
- FID-VID 6.98(第二好 20.6)
- FVD 140.6(第二好 144.6)
定性展示
- 多风格:真人 / 动漫 / 像素风 / 墨线画
- 半/全身、单/多人、极端姿态(体操、绿巨人)
消融实验
- 4D MT 去掉量化 → FID-VID ↑ 2.8
- 4D RoPE 去掉 → FVD ↑ 95
- CFG scale 3 vs 9:动作更准但伪影↑
局限 & 风险
- 极端比例角色、精细手势仍失真
- 潜在滥用:身份伪造、版权侵权 → 计划加水印+用户同意机制
结论与展望
- 提出 4D 运动 Token 新范式,显著提升开放世界动画质量
- 下一步:更大模型、手部/相机控制、实时化
代码 & Demo:https://github.com/DINGYANB/MTVCrafter