VLA 训练数据

flowchart TB
  subgraph required["必有 · 时间对齐"]
    img["相机图像<br/>可多路 · 可用短时多帧"]
    lang["语言指令"]
    act["专家动作"]
  end

  subgraph optional["可选"]
    state["机器人状态"]
  end

  sample["一条训练样本"]
  sample --> img
  sample --> lang
  sample --> act
  sample -.-> state

典型是真实环境里录的 专家成功示教（O、L、A* 时间对齐）。学的是「在这种观测与指令下，专家会出什么动作」，一般不教「世界接下来怎么变、后果好不好」。以模仿学习为主；失败片段或价值标签不是标准配置（少数路线会额外加）。

VLA 训练数据：专家示教与指令泛化

VLA 训练数据