WAM · Video 训练数据(视频模型基座)
flowchart TB
subgraph required["必有 · 时间对齐"]
img["相机图像<br/>当前 / 历史多帧 · 可多路"]
lang["语言指令"]
act["专家动作"]
future["未来世界监督<br/>未来视频帧(或编码后的 VAE latent)"]
end
subgraph optional["可选"]
state["机器人状态"]
value["价值标签 value<br/>规划路线用"]
end
sample["一条训练样本"]
sample --> img
sample --> lang
sample --> act
sample --> future
sample -.-> state
sample -.-> value
在示教基础上 还要学未来世界(S*:后续真实视频或 VAE latent)。完全可以只用与 VLA 同一批成功的真实专家数据,并非必须有差数据或 value。
若做「想象多条未来再选动作」或 RL,才可再引入:次优/失败真机数据、仿真或真机自 rollout,并标高/低价值——这是 规划与强化 的扩展,不是 WAM 的定义条件。