1. 大同小异,还是本质区别?
结论:同一问题族里的相邻范式,不是三个无关物种;但优化目标与数据/算力结构不同,不能当成换皮。
| 维度 | VLA | WAM · Video | WAM · Latent |
|---|---|---|---|
| 核心预测 | A(动作) | S(未来视频 latent)+ A | Z(未来潜表示)+ A |
| 世界知识从哪来 | 多模态对齐 + 示教 | 大规模视频预训练(VAE+DiT) | 紧凑动力学 / latent queries |
| 部署主输出 | 动作 | 常只取 A;Ŝ 用于规划/可视化 | 通常只取 A(Ẑ 内部用) |
| 算力/延迟 | 相对轻 | 最重 | 中等 |
底层组件大量重叠(ViT、Transformer、VLM 编码、动作 chunk),所以工程上会趋同;差别在是否显式建模未来世界、未来用什么表示(无 / S / Z)。
flowchart LR
subgraph 共同底座
O["O 观测"]
L["L 语言"]
enc["视觉·语言编码"]
O --> enc
L --> enc
end
subgraph VLA
vlm["VLM"]
ah["Action Head"]
enc --> vlm --> ah --> A1["A"]
end
subgraph WAM_V["WAM · Video"]
dit["视频基座 · DiT+VAE"]
enc --> dit
S["Ŝ 未来视频 latent"]
dit --> S
dit --> A3["A"]
end
subgraph WAM_L["WAM · Latent"]
lwm["潜空间动力学"]
enc --> lwm
Z["Ẑ 未来潜表示"]
lwm --> Z
lwm --> A2["A"]
end
flowchart LR
q["机器人控制:给定 O,L,下一步怎么做?"]
q --> vla["VLA<br/>直接学 P(A|O,L)"]
q --> wam["WAM<br/>先学世界,再出 A"]
wam --> vid["Video:P(S,A|O,L)<br/>S = 可解码的未来画面"]
wam --> lat["Latent:P(Z,A|O,L)<br/>Z = 不可解码的紧凑未来"]
vla ~~~ vid
vid ~~~ lat
style vla fill:#e8f4fc
style vid fill:#fff4e6
style lat fill:#f0f8e8
一句话:VLA 是「看懂就说怎么做」;WAM 是「先想后果再动手」——Video 想的是可见未来,Latent 想的是抽象未来。
2. 各自更适合做什么?
| 场景 | 更合适的选择 | 原因(简) |
|---|---|---|
| 语言泛化、多任务指令、快速闭环控制 | VLA | 语义对齐强;推理路径短 |
| 需要 看见 未来画面(评审、仿真可视化、数据增广) | WAM · Video | 像素/latent 生成成熟;物理外观先验来自大规模视频 |
| 要 世界知识 但 低延迟、少算力;重控制不重画质 | WAM · Latent | 不扛完整视频解码;未来信息压缩进 Z |
| 数据主要是 专家示教、任务单一 | VLA 往往够用 | 不必先学完整动力学 |
| 数据含 大量人类/互联网视频 + 机器人后训练 | WAM(Video 或 Latent) | 先学「世界」,再对齐动作 |
| 规划:在脑子里 比多条未来 再选动作 | WAM(+ 可选 value) | VLA 默认不预测 S / Z |
3. 布局建议:大厂 · 政策 · 高校院所
flowchart TB
subgraph 大厂["互联网大厂 · 宜重投入"]
d1["视频/多模态预训练基建"]
d2["WAM Video 底座 + 机器人后训练"]
d3["闭环数据 · 评测 · 产品落地"]
end
subgraph 政策["政府/平台 · 宜补公共品"]
p1["数采场 · 仿真 · 统一评测协议"]
p2["开源基准 · 安全与伦理框架"]
p3["算力券 · 共享集群"]
end
subgraph 高校["高校及院所 · 宜错位协同"]
u1["基础研究 · 开源复现 · 评测方法学"]
u2["细分场景数据 · 算法验证 · 人才培养"]
u3["产学研课题 · 可复现 benchmark · 技术转移"]
end
subgraph 错位["不宜重复造轮子"]
x1["各家各训巨型 Video WM"]
x2["只押单一范式 · 忽视评测"]
end
d1 --> d2 --> d3
p1 --> p2 --> p3
u1 --> u2 --> u3
p3 -.->|支撑 infra| u2
p3 -.->|支撑 infra| d3
u3 -.->|成果对接| d2
| 主体 | 怎么看三条范式 | 建议倾斜 |
|---|---|---|
| 大厂 | 不是三选一,是分层组合:Video WM 吃通用视觉先验;VLA/Latent 吃机器人闭环 | 重 数据规模 + 训练 recipe + 部署;Video 作底座,VLA/Latent 作机端与低延迟层 |
| 政策 | 范式会融合,壁垒在数据、评测、infra,不在名字 | 建 公共数采/仿真/评测;鼓励多路线并行试点;避免「只资助某一个模型名词」 |
| 高校及院所 | 不宜与大厂拼全栈预训练;适合 接底座、做验证、出方法 | 重 开源复现、细分场景、评测协议、学生与横向课题;Video 侧以 用大厂 checkpoint 做机器人对齐 为主;VLA/Latent 与 小数据闭环 更易出论文与样机 |
| 长远(三方) | Transformer 底座趋同后,差异化回到场景数据与工程 | 政策供 公共品,大厂供 底座与产品,高校供 可复现研究与人才;避免三方各训一套闭源 DiT |