异同、适用场景与布局建议

  • 三条路线不是简单换皮,也不是无关物种
  • VLA 和 WAM 的基座模型不同,全栈工程端的技术也有所不同

1. 大同小异,还是本质区别?

结论:同一问题族里的相邻范式,不是三个无关物种;但优化目标与数据/算力结构不同,不能当成换皮。

维度 VLA WAM · Video WAM · Latent
核心预测 A(动作) S(未来视频 latent)+ A Z(未来潜表示)+ A
世界知识从哪来 多模态对齐 + 示教 大规模视频预训练(VAE+DiT) 紧凑动力学 / latent queries
部署主输出 动作 常只取 A;Ŝ 用于规划/可视化 通常只取 A(Ẑ 内部用)
算力/延迟 相对轻 最重 中等

底层组件大量重叠(ViT、Transformer、VLM 编码、动作 chunk),所以工程上会趋同;差别在是否显式建模未来世界、未来用什么表示(无 / S / Z)

flowchart LR
  subgraph 共同底座
    O["O 观测"] 
    L["L 语言"]
    enc["视觉·语言编码"]
    O --> enc
    L --> enc
  end

  subgraph VLA
    vlm["VLM"]
    ah["Action Head"]
    enc --> vlm --> ah --> A1["A"]
  end

  subgraph WAM_V["WAM · Video"]
    dit["视频基座 · DiT+VAE"]
    enc --> dit
    S["Ŝ 未来视频 latent"]
    dit --> S
    dit --> A3["A"]
  end

  subgraph WAM_L["WAM · Latent"]
    lwm["潜空间动力学"]
    enc --> lwm
    Z["Ẑ 未来潜表示"] 
    lwm --> Z
    lwm --> A2["A"]
  end
flowchart LR
  q["机器人控制:给定 O,L,下一步怎么做?"]

  q --> vla["VLA<br/>直接学 P(A|O,L)"]
  q --> wam["WAM<br/>先学世界,再出 A"]

  wam --> vid["Video:P(S,A|O,L)<br/>S = 可解码的未来画面"]
  wam --> lat["Latent:P(Z,A|O,L)<br/>Z = 不可解码的紧凑未来"]

  vla ~~~ vid
  vid ~~~ lat

  style vla fill:#e8f4fc
  style vid fill:#fff4e6
  style lat fill:#f0f8e8

一句话:VLA 是「看懂就说怎么做」;WAM 是「先想后果再动手」——Video 想的是可见未来,Latent 想的是抽象未来

2. 各自更适合做什么?

场景 更合适的选择 原因(简)
语言泛化、多任务指令、快速闭环控制 VLA 语义对齐强;推理路径短
需要 看见 未来画面(评审、仿真可视化、数据增广) WAM · Video 像素/latent 生成成熟;物理外观先验来自大规模视频
世界知识低延迟、少算力;重控制不重画质 WAM · Latent 不扛完整视频解码;未来信息压缩进 Z
数据主要是 专家示教、任务单一 VLA 往往够用 不必先学完整动力学
数据含 大量人类/互联网视频 + 机器人后训练 WAM(Video 或 Latent) 先学「世界」,再对齐动作
规划:在脑子里 比多条未来 再选动作 WAM(+ 可选 value) VLA 默认不预测 S / Z

3. 布局建议:大厂 · 政策 · 高校院所

flowchart TB
  subgraph 大厂["互联网大厂 · 宜重投入"]
    d1["视频/多模态预训练基建"]
    d2["WAM Video 底座 + 机器人后训练"]
    d3["闭环数据 · 评测 · 产品落地"]
  end

  subgraph 政策["政府/平台 · 宜补公共品"]
    p1["数采场 · 仿真 · 统一评测协议"]
    p2["开源基准 · 安全与伦理框架"]
    p3["算力券 · 共享集群"]
  end

  subgraph 高校["高校及院所 · 宜错位协同"]
    u1["基础研究 · 开源复现 · 评测方法学"]
    u2["细分场景数据 · 算法验证 · 人才培养"]
    u3["产学研课题 · 可复现 benchmark · 技术转移"]
  end

  subgraph 错位["不宜重复造轮子"]
    x1["各家各训巨型 Video WM"]
    x2["只押单一范式 · 忽视评测"]
  end

  d1 --> d2 --> d3
  p1 --> p2 --> p3
  u1 --> u2 --> u3
  p3 -.->|支撑 infra| u2
  p3 -.->|支撑 infra| d3
  u3 -.->|成果对接| d2
主体 怎么看三条范式 建议倾斜
大厂 不是三选一,是分层组合:Video WM 吃通用视觉先验;VLA/Latent 吃机器人闭环 数据规模 + 训练 recipe + 部署;Video 作底座,VLA/Latent 作机端与低延迟层
政策 范式会融合,壁垒在数据、评测、infra,不在名字 公共数采/仿真/评测;鼓励多路线并行试点;避免「只资助某一个模型名词」
高校及院所 不宜与大厂拼全栈预训练;适合 接底座、做验证、出方法 开源复现、细分场景、评测协议、学生与横向课题;Video 侧以 用大厂 checkpoint 做机器人对齐 为主;VLA/Latent 与 小数据闭环 更易出论文与样机
长远(三方) Transformer 底座趋同后,差异化回到场景数据与工程 政策供 公共品,大厂供 底座与产品,高校供 可复现研究与人才;避免三方各训一套闭源 DiT