← 返回文档列表

共同语言

输入输出基线:O、L、A、S、Z 分别是什么

把各路线统一放到输入输出框架中比较:VLA 主要出动作,WAM 还可能输出未来世界或内部未来表示。

VLA / WAM Video / WAM Latent 输入输出

---
config:
  flowchart:
    padding: 24
    nodeSpacing: 48
    rankSpacing: 56
---
flowchart LR
  subgraph VLA["VLA"]
    direction TB
    vla_in["输入<br/>相机 · 指令 · 状态(可选)"]
    vla_out["输出<br/>动作 chunk"]
    vla_in --> vla_out
  end

  subgraph WAM_V["WAM · Video"]
    direction TB
    wmv_in["输入<br/>相机 · 指令 · 状态(可选)"]
    wmv_world["输出 · 未来世界<br/>未来视频 / VAE latent"]
    wmv_act["输出 · 控制<br/>动作 chunk"]
    wmv_val["输出 · 规划(可选)<br/>value"]
    wmv_val_def["value = 未来状态期望回报标量<br/>比较多条「未来+动作」候选<br/>纯闭环控制可不要此输出"]
    wmv_in --> wmv_world
    wmv_in --> wmv_act
    wmv_in --> wmv_val
    wmv_val -.-> wmv_val_def
    wmv_world_note["用途:规划 / 仿真想象未来"]
    wmv_act_note["用途:下发机器人执行"]
    wmv_world -.-> wmv_world_note
    wmv_act -.-> wmv_act_note
  end

  subgraph WAM_L["WAM · Latent"]
    direction TB
    wml_in["输入<br/>相机 · 指令 · 状态(可选)"]
    wml_latent["内部<br/>latent 世界推理"]
    wml_act["输出<br/>动作 chunk"]
    wml_in --> wml_latent --> wml_act
    wml_note["不生成可见未来视频"]
    wml_act -.-> wml_note
  end

  vla_out ~~~ wmv_in
  wmv_act ~~~ wml_in