WAM · Video 训练数据（视频模型基座）

flowchart TB
  subgraph required["必有 · 时间对齐"]
    img["相机图像<br/>当前 / 历史多帧 · 可多路"]
    lang["语言指令"]
    act["专家动作"]
    future["未来世界监督<br/>未来视频帧（或编码后的 VAE latent）"]
  end

  subgraph optional["可选"]
    state["机器人状态"]
    value["价值标签 value<br/>规划路线用"]
  end

  sample["一条训练样本"]
  sample --> img
  sample --> lang
  sample --> act
  sample --> future
  sample -.-> state
  sample -.-> value

在示教基础上 还要学未来世界（S*：后续真实视频或 VAE latent）。完全可以只用与 VLA 同一批成功的真实专家数据，并非必须有差数据或 value。
若做「想象多条未来再选动作」或 RL，才可再引入：次优/失败真机数据、仿真或真机自 rollout，并标高/低价值——这是 规划与强化 的扩展，不是 WAM 的定义条件。

WAM Video 训练数据：互联网视频、机器人后训练与未来监督

WAM · Video 训练数据（视频模型基座）