VLA 训练数据
flowchart TB
subgraph required["必有 · 时间对齐"]
img["相机图像<br/>可多路 · 可用短时多帧"]
lang["语言指令"]
act["专家动作"]
end
subgraph optional["可选"]
state["机器人状态"]
end
sample["一条训练样本"]
sample --> img
sample --> lang
sample --> act
sample -.-> state
典型是真实环境里录的 专家成功示教(O、L、A* 时间对齐)。学的是「在这种观测与指令下,专家会出什么动作」,一般不教「世界接下来怎么变、后果好不好」。以模仿学习为主;失败片段或价值标签不是标准配置(少数路线会额外加)。