← 返回文档列表

训练数据

WAM Latent 训练数据:未来潜表示与控制闭环

Latent 路线同样需要未来监督,但目标是紧凑未来表示,而不是可见像素视频。

WAM · Latent 训练数据(潜空间世界模型)

flowchart TB
  subgraph required["必有 · 时间对齐"]
    img["相机图像<br/>当前 / 历史多帧 · 可多路"]
    lang["语言指令"]
    act["专家动作"]
    future_z["未来世界监督 · 潜空间目标<br/>后续时刻的紧凑表示<br/>(非像素视频;常由冻结编码器或后验分支导出)"]
  end

  subgraph optional["可选"]
    state["机器人状态"]
    value["价值标签 value<br/>规划路线用"]
  end

  sample["一条训练样本"]
  sample --> img
  sample --> lang
  sample --> act
  sample --> future_z
  sample -.-> state
  sample -.-> value

与 Video 路线相同:示教上 多加未来潜空间目标 Z*(紧凑向量,非像素视频),不必为每条样本准备 value。
完全可以只用成功的真实专家示教;value、差数据、自 rollout 数据仅在 规划 / RL 时需要,用于区分「哪种未来后果更好」,不是 Latent WAM 的必选项。