← 返回文档列表

WAM Latent

WAM Latent 架构:紧凑未来与低延迟控制

WAM Latent 不生成可见视频,而是在潜空间里承载未来信息,用较低成本服务控制闭环。

WAM · Latent 架构与训练

架构

---
config:
  flowchart:
    nodeSpacing: 36
    padding: 18
---
flowchart TB
  o_now["O 当前观测<br/>相机:当前 / 历史帧<br/>(+ 可选状态)"]
  z_real["Z* 未来潜表示(训练时)<br/>后续世界的紧凑向量<br/>(非可解码像素视频)"]
  l_in["L 语言<br/>任务指令"]
  z_out["Ẑ 预测未来潜表示<br/>(训练对齐 / 规划用,推理常不显式输出)"]
  a_out["A 动作<br/>关节 / 夹爪等"]

  subgraph WAM_L["WAM · Latent"]
    direction TB
    enc_now["变换 · 当前帧(通常不动)<br/>视觉编码 → token / 特征"]
    enc_fut["变换 · 未来监督(通常不动)<br/>真实后续帧/状态 → Z* 目标向量"]
    enc_l["变换 · 语言(通常不动)<br/>分词 + 嵌入"]
    seq["拼成条件序列"]
    latent_wm["潜空间世界模块<br/>• 视觉 / 语言编码(通常不动)<br/>• 潜空间动力学 / latent queries(训练)<br/>• 无像素级视频 DiT / VAE 解码链"]
    joint["联合输出<br/>• 预测未来潜表示 Ẑ<br/>• 动作 chunk"]

    enc_now --> seq
    enc_l --> seq
    seq --> latent_wm
    enc_fut --> latent_wm
    latent_wm --> joint
  end

  o_now --> enc_now
  z_real --> enc_fut
  l_in --> enc_l
  joint --> z_out
  joint --> a_out

WAM · Video 不同:推理侧 不生成可见未来视频;世界知识留在 潜空间 内,控制闭环通常 只取 A


概率分布

flowchart TB
  pza["P(Z , A | O , L)"]
  subgraph decomp[" "]
    direction LR
    o_l["O 当前 , L"] --> enc["O,L → 条件序列"] --> lwm["潜空间世界模块"] --> out["Ẑ , Â"]
    z_lab["Z* 未来潜表示"] --> lwm
  end

部署时常用 P(A | O, L):对 Z 在内部积分或单次前向,不显式输出像素世界


训练过程

flowchart TB
  theta0["① 初始:预设参数 θ₀<br/>(VLM / 人类视频预训练 · 潜空间世界权重)"]
  data["示教数据<br/>O , L , A* , Z*"]
  z_star["Z*<br/>未来潜空间目标(非像素 S*)"]
  a_star["A*<br/>专家动作"]
  forward["前向:O , L → WAM(θ) → Ẑ , Â"]
  loss["② Loss<br/>比较 Ẑ 与 Z* · Â 与 A*<br/>(潜空间对齐 / 动力学 + 动作项)"]
  update["③ 调参数<br/>反向传播,主要更新潜空间模块 + 动作头<br/>(常含 LoRA;通常不动整包视频 DiT)"]
  theta_star["最终参数 θ*"]
  p_star["得到 P*<br/>P*(Z , A | O , L)"]

  theta0 --> forward
  data --> forward
  data --> z_star
  data --> a_star
  forward --> loss
  z_star --> loss
  a_star --> loss
  loss --> update --> theta_star --> p_star

P:训完后 θ 定义的 联合分布(潜空间未来 + 动作)。
Z:由示教 后续真实观测冻结编码器训练专用后验分支 得到的 紧凑目标;不要求像素级重建。
A
:专家动作标签。与 Video 路线相比,算力与延迟 通常更低,物理直觉 依赖 Z 的设计与对齐目标。