← 返回文档列表

WAM Video

WAM Video 架构:可见未来与机器人动作

WAM Video 依托视频基座预测未来视频 latent 与动作,优势是能“看见未来”,代价是算力更重。

WAM · Video 架构与训练

架构

---
config:
  flowchart:
    nodeSpacing: 36
    padding: 18
---
flowchart TB
  o_now["O 当前观测<br/>相机:当前 / 历史帧<br/>(+ 可选状态)"]
  s_real["S* 未来帧(训练时)<br/>相机:后续真实视频"]
  l_in["L 语言<br/>任务指令"]
  s_out["Ŝ 预测未来世界<br/>latent(可解码为视频)"]
  a_out["A 动作<br/>关节 / 夹爪等"]

  subgraph WAM_V["WAM · Video"]
    direction TB
    enc_now["变换 · 当前帧(通常不动)"]
    enc_fut["• 变换 · 未来帧(通常不动)<br/>• 真实后续图像"]
    enc_l["• 变换 · 语言(通常不动)<br/>• 分词 + 嵌入"]
    seq["拼成条件序列 / latent 占位"]
    video_base["视频基座模型<br/>• 时空 VAE(通常不动)<br/>• Wan / Cosmos 预训练 checkpoint(通常不动)<br/>• 视频 DiT(训练)"]
    joint["联合输出<br/>• 预测未来 latent<br/>• 动作 chunk"]

    enc_now --> seq
    enc_l --> seq
    seq --> video_base
    enc_fut --> video_base
    video_base --> joint
  end

  o_now --> enc_now
  s_real --> enc_fut
  l_in --> enc_l
  joint --> s_out
  joint --> a_out

概率分布

flowchart TB
  psa["P(S , A | O , L)"]
  subgraph decomp[" "]
    direction LR
    o_l["O 当前 , L"] --> enc["条件编码"] --> vbm["视频基座模型"] --> out["Ŝ , Â"]
    s_lab["S* 未来真实帧"] --> vbm
  end

训练过程

flowchart TB
  theta0["① 初始:预设参数 θ₀<br/>(Wan / Cosmos 视频预训练权重)"]
  data["示教数据<br/>O , L , A* , S*"]
  s_star["S*<br/>未来真实视频帧(或编码后的 VAE latent)"]
  a_star["A*<br/>专家动作"]
  forward["前向:O , L → WAM(θ) → Ŝ , Â"]
  loss["② Loss<br/>比较 Ŝ 与 S* · Â 与 A*<br/>(latent 扩散 / flow + 动作项)"]
  update["③ 调参数<br/>反向传播,微调 DiT(常含 LoRA 或全量)"]
  theta_star["最终参数 θ*"]
  p_star["得到 P*<br/>P*(S , A | O , L)"]

  theta0 --> forward
  data --> forward
  data --> s_star
  data --> a_star
  forward --> loss
  s_star --> loss
  a_star --> loss
  loss --> update --> theta_star --> p_star

P:训完后 θ 定义的 联合分布(未来世界 + 动作)。
S:数据里 真实的后续视频(经 VAE 编码后参与 Loss);不是模型生成物当标签。
A
:专家动作标签。部署作策略时通常 只取 AS 可用于规划或仿真。