WAM · Video 架构与训练
架构
---
config:
flowchart:
nodeSpacing: 36
padding: 18
---
flowchart TB
o_now["O 当前观测<br/>相机:当前 / 历史帧<br/>(+ 可选状态)"]
s_real["S* 未来帧(训练时)<br/>相机:后续真实视频"]
l_in["L 语言<br/>任务指令"]
s_out["Ŝ 预测未来世界<br/>latent(可解码为视频)"]
a_out["A 动作<br/>关节 / 夹爪等"]
subgraph WAM_V["WAM · Video"]
direction TB
enc_now["变换 · 当前帧(通常不动)"]
enc_fut["• 变换 · 未来帧(通常不动)<br/>• 真实后续图像"]
enc_l["• 变换 · 语言(通常不动)<br/>• 分词 + 嵌入"]
seq["拼成条件序列 / latent 占位"]
video_base["视频基座模型<br/>• 时空 VAE(通常不动)<br/>• Wan / Cosmos 预训练 checkpoint(通常不动)<br/>• 视频 DiT(训练)"]
joint["联合输出<br/>• 预测未来 latent<br/>• 动作 chunk"]
enc_now --> seq
enc_l --> seq
seq --> video_base
enc_fut --> video_base
video_base --> joint
end
o_now --> enc_now
s_real --> enc_fut
l_in --> enc_l
joint --> s_out
joint --> a_out
概率分布
flowchart TB
psa["P(S , A | O , L)"]
subgraph decomp[" "]
direction LR
o_l["O 当前 , L"] --> enc["条件编码"] --> vbm["视频基座模型"] --> out["Ŝ , Â"]
s_lab["S* 未来真实帧"] --> vbm
end
训练过程
flowchart TB
theta0["① 初始:预设参数 θ₀<br/>(Wan / Cosmos 视频预训练权重)"]
data["示教数据<br/>O , L , A* , S*"]
s_star["S*<br/>未来真实视频帧(或编码后的 VAE latent)"]
a_star["A*<br/>专家动作"]
forward["前向:O , L → WAM(θ) → Ŝ , Â"]
loss["② Loss<br/>比较 Ŝ 与 S* · Â 与 A*<br/>(latent 扩散 / flow + 动作项)"]
update["③ 调参数<br/>反向传播,微调 DiT(常含 LoRA 或全量)"]
theta_star["最终参数 θ*"]
p_star["得到 P*<br/>P*(S , A | O , L)"]
theta0 --> forward
data --> forward
data --> s_star
data --> a_star
forward --> loss
s_star --> loss
a_star --> loss
loss --> update --> theta_star --> p_star
P:训完后 θ 定义的 联合分布(未来世界 + 动作)。
S:数据里 真实的后续视频(经 VAE 编码后参与 Loss);不是模型生成物当标签。
A:专家动作标签。部署作策略时通常 只取 A;S 可用于规划或仿真。