VLA / WAM Video / WAM Latent 输入输出
---
config:
flowchart:
padding: 24
nodeSpacing: 48
rankSpacing: 56
---
flowchart LR
subgraph VLA["VLA"]
direction TB
vla_in["输入<br/>相机 · 指令 · 状态(可选)"]
vla_out["输出<br/>动作 chunk"]
vla_in --> vla_out
end
subgraph WAM_V["WAM · Video"]
direction TB
wmv_in["输入<br/>相机 · 指令 · 状态(可选)"]
wmv_world["输出 · 未来世界<br/>未来视频 / VAE latent"]
wmv_act["输出 · 控制<br/>动作 chunk"]
wmv_val["输出 · 规划(可选)<br/>value"]
wmv_val_def["value = 未来状态期望回报标量<br/>比较多条「未来+动作」候选<br/>纯闭环控制可不要此输出"]
wmv_in --> wmv_world
wmv_in --> wmv_act
wmv_in --> wmv_val
wmv_val -.-> wmv_val_def
wmv_world_note["用途:规划 / 仿真想象未来"]
wmv_act_note["用途:下发机器人执行"]
wmv_world -.-> wmv_world_note
wmv_act -.-> wmv_act_note
end
subgraph WAM_L["WAM · Latent"]
direction TB
wml_in["输入<br/>相机 · 指令 · 状态(可选)"]
wml_latent["内部<br/>latent 世界推理"]
wml_act["输出<br/>动作 chunk"]
wml_in --> wml_latent --> wml_act
wml_note["不生成可见未来视频"]
wml_act -.-> wml_note
end
vla_out ~~~ wmv_in
wmv_act ~~~ wml_in