1. 技术路线概览
flowchart TB
brain["具身智能大脑<br/>给定观测 O、指令 L,如何行动 A(未来如何 S)?"]
brain --> vla["VLA<br/>Vision-Language-Action"]
brain --> wamv["WAM · Video<br/>视频世界模型 + 动作"]
brain --> waml["WAM · Latent<br/>潜空间世界模型 + 动作"]
brain --> rl["RL<br/>强化学习(常作后训练 / 闭环优化)"]
vla --- note1["直接学 P(A|O,L)"]
wamv --- note2["学 P(S,A|O,L),S 为可解码未来画面"]
waml --- note3["学 P(Z,A|O,L),Z 为紧凑未来"]
rl --- note4["用奖励 R 优化策略,常与 IL 预训练衔接"]
2. 各路线是什么(定义)
统一符号:
- O:当前观测(相机等,可选本体状态)
- L:语言任务指令
- A:动作(关节、夹爪等,常为 action chunk)
- S:未来世界 / 未来视频表示(WAM Video 中通常是可解码的时空 latent)
VLA(Vision-Language-Action)
定义:在 视觉–语言模型(VLM) 上接 动作头,从 (O, L) 直接映射到 A。核心是学条件分布 P(A | O, L),通过模仿学习(IL)对齐专家示教,强调语义理解、多任务指令与较短推理路径。
典型形态:ViT + LLM 编码 → 理解表示 H → Action Head(或 Flow Matching 等)出连续动作。
WAM · Video(视频世界模型 + 控制)
定义:在 (O, L) 条件下预测 未来视频的时空 latent S 与 动作 A,即 P(S, A | O, L)。S 对应真实后续帧经 VAE 等编码,可 解码为可见未来;常依托 大规模视频预训练(如 Wan / Cosmos 类 DiT + VAE)再做机器人后训练。
与 VLA 的分野:显式建模「后果」,且未来以 密集、可想象的画面 表示,物理外观与运动先验强,算力与推理成本通常最高。
WAM · Latent(潜空间世界模型 + 控制)
定义:World Action Model 的潜空间变体。在同一 (O, L) 条件下同时预测 未来世界的紧凑表示 Z 与 动作 A,即 P(Z, A | O, L)。Z 由真实后续帧/状态编码得到,不可解码为像素视频;部署时通常只输出 A,Ẑ 用于训练对齐或内部规划。
与 Video 的分野:同样建模世界动力学,但用 低维潜空间 承载未来,不扛像素级视频解码;算力与延迟介于 VLA 与 Video 之间。
Reinforcement Learning(强化学习)
定义:在环境交互中根据 奖励 R(任务成功、进度、安全等)优化 策略 π,使长期回报最大。在具身大脑语境下,RL 很少单独作为从零开始的唯一范式,而多作为:
- IL / VLA / WAM 预训练之后的第二阶段(先模仿专家 θ₁,再 rollout + RL 得 θ₂);
- 或在仿真 / 真机闭环中 修正分布外误差、提升成功率。
RL 不改变「用 VLM 还是世界模型」的架构选择,而是 同一策略网络上的优化目标与数据闭环 发生变化。
3. 重点关注的核心问题
下列问题在“路线对比:异同、适用场景与资源投入”中展开;此处仅作索引。
| 问题 | 简要指向 |
|---|---|
| 1. 大同小异,还是本质区别? | 共享 Transformer / 视觉编码等底座,工程上会趋同;差别在是否预测未来、未来用 无 / S / Z 哪种表示,以及数据与算力结构 |
| 2. 各自更适合做什么? | VLA 偏指令泛化与快速闭环;Video 偏「看见未来」与视频先验;Latent 偏世界知识 + 低延迟 |
| 3. 资源投入:大厂、政府、高校院所 | 大厂重底座与产品;政策重公共数采/评测/算力;高校重方法、复现与产学研对接,不宜重复全栈巨型预训练 |