WAM · Latent 架构与训练

架构

---
config:
  flowchart:
    nodeSpacing: 36
    padding: 18
---
flowchart TB
  o_now["O 当前观测<br/>相机：当前 / 历史帧<br/>（+ 可选状态）"]
  z_real["Z* 未来潜表示（训练时）<br/>后续世界的紧凑向量<br/>（非可解码像素视频）"]
  l_in["L 语言<br/>任务指令"]
  z_out["Ẑ 预测未来潜表示<br/>（训练对齐 / 规划用，推理常不显式输出）"]
  a_out["A 动作<br/>关节 / 夹爪等"]

  subgraph WAM_L["WAM · Latent"]
    direction TB
    enc_now["变换 · 当前帧（通常不动）<br/>视觉编码 → token / 特征"]
    enc_fut["变换 · 未来监督（通常不动）<br/>真实后续帧/状态 → Z* 目标向量"]
    enc_l["变换 · 语言（通常不动）<br/>分词 + 嵌入"]
    seq["拼成条件序列"]
    latent_wm["潜空间世界模块<br/>• 视觉 / 语言编码（通常不动）<br/>• 潜空间动力学 / latent queries（训练）<br/>• 无像素级视频 DiT / VAE 解码链"]
    joint["联合输出<br/>• 预测未来潜表示 Ẑ<br/>• 动作 chunk"]

    enc_now --> seq
    enc_l --> seq
    seq --> latent_wm
    enc_fut --> latent_wm
    latent_wm --> joint
  end

  o_now --> enc_now
  z_real --> enc_fut
  l_in --> enc_l
  joint --> z_out
  joint --> a_out

与 WAM · Video 不同：推理侧 不生成可见未来视频；世界知识留在 潜空间 内，控制闭环通常 只取 A。

概率分布

flowchart TB
  pza["P(Z , A | O , L)"]
  subgraph decomp[" "]
    direction LR
    o_l["O 当前 , L"] --> enc["O,L → 条件序列"] --> lwm["潜空间世界模块"] --> out["Ẑ , Â"]
    z_lab["Z* 未来潜表示"] --> lwm
  end

部署时常用 P(A | O, L)：对 Z 在内部积分或单次前向，不显式输出像素世界。

训练过程

flowchart TB
  theta0["① 初始：预设参数 θ₀<br/>（VLM / 人类视频预训练 · 潜空间世界权重）"]
  data["示教数据<br/>O , L , A* , Z*"]
  z_star["Z*<br/>未来潜空间目标（非像素 S*）"]
  a_star["A*<br/>专家动作"]
  forward["前向：O , L → WAM(θ) → Ẑ , Â"]
  loss["② Loss<br/>比较 Ẑ 与 Z* · Â 与 A*<br/>（潜空间对齐 / 动力学 + 动作项）"]
  update["③ 调参数<br/>反向传播，主要更新潜空间模块 + 动作头<br/>（常含 LoRA；通常不动整包视频 DiT）"]
  theta_star["最终参数 θ*"]
  p_star["得到 P*<br/>P*(Z , A | O , L)"]

  theta0 --> forward
  data --> forward
  data --> z_star
  data --> a_star
  forward --> loss
  z_star --> loss
  a_star --> loss
  loss --> update --> theta_star --> p_star

P：训完后 θ 定义的 联合分布（潜空间未来 + 动作）。
Z：由示教 后续真实观测 经 冻结编码器 或 训练专用后验分支 得到的 紧凑目标；不要求像素级重建。
A：专家动作标签。与 Video 路线相比，算力与延迟 通常更低，物理直觉 依赖 Z 的设计与对齐目标。

WAM Latent 架构：紧凑未来与低延迟控制

WAM · Latent 架构与训练

架构

概率分布

训练过程