异同、适用场景与布局建议 | 北京具身智能大脑

1. 大同小异，还是本质区别？

结论：同一问题族里的相邻范式，不是三个无关物种；但优化目标与数据/算力结构不同，不能当成换皮。

维度	VLA	WAM · Video	WAM · Latent
核心预测	A（动作）	S（未来视频 latent）+ A	Z（未来潜表示）+ A
世界知识从哪来	多模态对齐 + 示教	大规模视频预训练（VAE+DiT）	紧凑动力学 / latent queries
部署主输出	动作	常只取 A；Ŝ 用于规划/可视化	通常只取 A（Ẑ 内部用）
算力/延迟	相对轻	最重	中等

底层组件大量重叠（ViT、Transformer、VLM 编码、动作 chunk），所以工程上会趋同；差别在是否显式建模未来世界、未来用什么表示（无 / S / Z）。

flowchart LR
  subgraph 共同底座
    O["O 观测"] 
    L["L 语言"]
    enc["视觉·语言编码"]
    O --> enc
    L --> enc
  end

  subgraph VLA
    vlm["VLM"]
    ah["Action Head"]
    enc --> vlm --> ah --> A1["A"]
  end

  subgraph WAM_V["WAM · Video"]
    dit["视频基座 · DiT+VAE"]
    enc --> dit
    S["Ŝ 未来视频 latent"]
    dit --> S
    dit --> A3["A"]
  end

  subgraph WAM_L["WAM · Latent"]
    lwm["潜空间动力学"]
    enc --> lwm
    Z["Ẑ 未来潜表示"] 
    lwm --> Z
    lwm --> A2["A"]
  end

flowchart LR
  q["机器人控制：给定 O,L，下一步怎么做？"]

  q --> vla["VLA<br/>直接学 P(A|O,L)"]
  q --> wam["WAM<br/>先学世界，再出 A"]

  wam --> vid["Video：P(S,A|O,L)<br/>S = 可解码的未来画面"]
  wam --> lat["Latent：P(Z,A|O,L)<br/>Z = 不可解码的紧凑未来"]

  vla ~~~ vid
  vid ~~~ lat

  style vla fill:#e8f4fc
  style vid fill:#fff4e6
  style lat fill:#f0f8e8

一句话：VLA 是「看懂就说怎么做」；WAM 是「先想后果再动手」——Video 想的是可见未来，Latent 想的是抽象未来。

2. 各自更适合做什么？

场景	更合适的选择	原因（简）
语言泛化、多任务指令、快速闭环控制	VLA	语义对齐强；推理路径短
需要看见未来画面（评审、仿真可视化、数据增广）	WAM · Video	像素/latent 生成成熟；物理外观先验来自大规模视频
要世界知识但低延迟、少算力；重控制不重画质	WAM · Latent	不扛完整视频解码；未来信息压缩进 Z
数据主要是专家示教、任务单一	VLA 往往够用	不必先学完整动力学
数据含大量人类/互联网视频 + 机器人后训练	WAM（Video 或 Latent）	先学「世界」，再对齐动作
规划：在脑子里比多条未来再选动作	WAM（+ 可选 value）	VLA 默认不预测 S / Z

3. 布局建议：大厂 · 政策 · 高校院所

flowchart TB
  subgraph 大厂["互联网大厂 · 宜重投入"]
    d1["视频/多模态预训练基建"]
    d2["WAM Video 底座 + 机器人后训练"]
    d3["闭环数据 · 评测 · 产品落地"]
  end

  subgraph 政策["政府/平台 · 宜补公共品"]
    p1["数采场 · 仿真 · 统一评测协议"]
    p2["开源基准 · 安全与伦理框架"]
    p3["算力券 · 共享集群"]
  end

  subgraph 高校["高校及院所 · 宜错位协同"]
    u1["基础研究 · 开源复现 · 评测方法学"]
    u2["细分场景数据 · 算法验证 · 人才培养"]
    u3["产学研课题 · 可复现 benchmark · 技术转移"]
  end

  subgraph 错位["不宜重复造轮子"]
    x1["各家各训巨型 Video WM"]
    x2["只押单一范式 · 忽视评测"]
  end

  d1 --> d2 --> d3
  p1 --> p2 --> p3
  u1 --> u2 --> u3
  p3 -.->|支撑 infra| u2
  p3 -.->|支撑 infra| d3
  u3 -.->|成果对接| d2

主体	怎么看三条范式	建议倾斜
大厂	不是三选一，是分层组合：Video WM 吃通用视觉先验；VLA/Latent 吃机器人闭环	重数据规模 + 训练 recipe + 部署；Video 作底座，VLA/Latent 作机端与低延迟层
政策	范式会融合，壁垒在数据、评测、infra，不在名字	建公共数采/仿真/评测；鼓励多路线并行试点；避免「只资助某一个模型名词」
高校及院所	不宜与大厂拼全栈预训练；适合接底座、做验证、出方法	重开源复现、细分场景、评测协议、学生与横向课题；Video 侧以用大厂 checkpoint 做机器人对齐为主；VLA/Latent 与小数据闭环更易出论文与样机
长远（三方）	Transformer 底座趋同后，差异化回到场景数据与工程	政策供公共品，大厂供底座与产品，高校供可复现研究与人才；避免三方各训一套闭源 DiT