WAM · Video 架构与训练

架构

---
config:
  flowchart:
    nodeSpacing: 36
    padding: 18
---
flowchart TB
  o_now["O 当前观测<br/>相机：当前 / 历史帧<br/>（+ 可选状态）"]
  s_real["S* 未来帧（训练时）<br/>相机：后续真实视频"]
  l_in["L 语言<br/>任务指令"]
  s_out["Ŝ 预测未来世界<br/>latent（可解码为视频）"]
  a_out["A 动作<br/>关节 / 夹爪等"]

  subgraph WAM_V["WAM · Video"]
    direction TB
    enc_now["变换 · 当前帧（通常不动）"]
    enc_fut["• 变换 · 未来帧（通常不动）<br/>• 真实后续图像"]
    enc_l["• 变换 · 语言（通常不动）<br/>• 分词 + 嵌入"]
    seq["拼成条件序列 / latent 占位"]
    video_base["视频基座模型<br/>• 时空 VAE（通常不动）<br/>• Wan / Cosmos 预训练 checkpoint（通常不动）<br/>• 视频 DiT（训练）"]
    joint["联合输出<br/>• 预测未来 latent<br/>• 动作 chunk"]

    enc_now --> seq
    enc_l --> seq
    seq --> video_base
    enc_fut --> video_base
    video_base --> joint
  end

  o_now --> enc_now
  s_real --> enc_fut
  l_in --> enc_l
  joint --> s_out
  joint --> a_out

概率分布

flowchart TB
  psa["P(S , A | O , L)"]
  subgraph decomp[" "]
    direction LR
    o_l["O 当前 , L"] --> enc["条件编码"] --> vbm["视频基座模型"] --> out["Ŝ , Â"]
    s_lab["S* 未来真实帧"] --> vbm
  end

训练过程

flowchart TB
  theta0["① 初始：预设参数 θ₀<br/>（Wan / Cosmos 视频预训练权重）"]
  data["示教数据<br/>O , L , A* , S*"]
  s_star["S*<br/>未来真实视频帧（或编码后的 VAE latent）"]
  a_star["A*<br/>专家动作"]
  forward["前向：O , L → WAM(θ) → Ŝ , Â"]
  loss["② Loss<br/>比较 Ŝ 与 S* · Â 与 A*<br/>（latent 扩散 / flow + 动作项）"]
  update["③ 调参数<br/>反向传播，微调 DiT（常含 LoRA 或全量）"]
  theta_star["最终参数 θ*"]
  p_star["得到 P*<br/>P*(S , A | O , L)"]

  theta0 --> forward
  data --> forward
  data --> s_star
  data --> a_star
  forward --> loss
  s_star --> loss
  a_star --> loss
  loss --> update --> theta_star --> p_star

P：训完后 θ 定义的 联合分布（未来世界 + 动作）。
S：数据里 真实的后续视频（经 VAE 编码后参与 Loss）；不是模型生成物当标签。
A：专家动作标签。部署作策略时通常 只取 A；S 可用于规划或仿真。

WAM Video 架构：可见未来与机器人动作

WAM · Video 架构与训练

架构

概率分布

训练过程