WAM · Latent 架构与训练
架构
---
config:
flowchart:
nodeSpacing: 36
padding: 18
---
flowchart TB
o_now["O 当前观测<br/>相机:当前 / 历史帧<br/>(+ 可选状态)"]
z_real["Z* 未来潜表示(训练时)<br/>后续世界的紧凑向量<br/>(非可解码像素视频)"]
l_in["L 语言<br/>任务指令"]
z_out["Ẑ 预测未来潜表示<br/>(训练对齐 / 规划用,推理常不显式输出)"]
a_out["A 动作<br/>关节 / 夹爪等"]
subgraph WAM_L["WAM · Latent"]
direction TB
enc_now["变换 · 当前帧(通常不动)<br/>视觉编码 → token / 特征"]
enc_fut["变换 · 未来监督(通常不动)<br/>真实后续帧/状态 → Z* 目标向量"]
enc_l["变换 · 语言(通常不动)<br/>分词 + 嵌入"]
seq["拼成条件序列"]
latent_wm["潜空间世界模块<br/>• 视觉 / 语言编码(通常不动)<br/>• 潜空间动力学 / latent queries(训练)<br/>• 无像素级视频 DiT / VAE 解码链"]
joint["联合输出<br/>• 预测未来潜表示 Ẑ<br/>• 动作 chunk"]
enc_now --> seq
enc_l --> seq
seq --> latent_wm
enc_fut --> latent_wm
latent_wm --> joint
end
o_now --> enc_now
z_real --> enc_fut
l_in --> enc_l
joint --> z_out
joint --> a_out
与 WAM · Video 不同:推理侧 不生成可见未来视频;世界知识留在 潜空间 内,控制闭环通常 只取 A。
概率分布
flowchart TB
pza["P(Z , A | O , L)"]
subgraph decomp[" "]
direction LR
o_l["O 当前 , L"] --> enc["O,L → 条件序列"] --> lwm["潜空间世界模块"] --> out["Ẑ , Â"]
z_lab["Z* 未来潜表示"] --> lwm
end
部署时常用 P(A | O, L):对 Z 在内部积分或单次前向,不显式输出像素世界。
训练过程
flowchart TB
theta0["① 初始:预设参数 θ₀<br/>(VLM / 人类视频预训练 · 潜空间世界权重)"]
data["示教数据<br/>O , L , A* , Z*"]
z_star["Z*<br/>未来潜空间目标(非像素 S*)"]
a_star["A*<br/>专家动作"]
forward["前向:O , L → WAM(θ) → Ẑ , Â"]
loss["② Loss<br/>比较 Ẑ 与 Z* · Â 与 A*<br/>(潜空间对齐 / 动力学 + 动作项)"]
update["③ 调参数<br/>反向传播,主要更新潜空间模块 + 动作头<br/>(常含 LoRA;通常不动整包视频 DiT)"]
theta_star["最终参数 θ*"]
p_star["得到 P*<br/>P*(Z , A | O , L)"]
theta0 --> forward
data --> forward
data --> z_star
data --> a_star
forward --> loss
z_star --> loss
a_star --> loss
loss --> update --> theta_star --> p_star
P:训完后 θ 定义的 联合分布(潜空间未来 + 动作)。
Z:由示教 后续真实观测 经 冻结编码器 或 训练专用后验分支 得到的 紧凑目标;不要求像素级重建。
A:专家动作标签。与 Video 路线相比,算力与延迟 通常更低,物理直觉 依赖 Z 的设计与对齐目标。