3+1 条技术路线与核心关注问题 | 北京具身智能大脑

1. 技术路线概览

flowchart TB
  brain["具身智能大脑<br/>给定观测 O、指令 L，如何行动 A（未来如何 S）？"]

  brain --> vla["VLA<br/>Vision-Language-Action"]
  brain --> wamv["WAM · Video<br/>视频世界模型 + 动作"]
  brain --> waml["WAM · Latent<br/>潜空间世界模型 + 动作"]
  brain --> rl["RL<br/>强化学习（常作后训练 / 闭环优化）"]

  vla --- note1["直接学 P(A|O,L)"]
  wamv --- note2["学 P(S,A|O,L)，S 为可解码未来画面"]
  waml --- note3["学 P(Z,A|O,L)，Z 为紧凑未来"]
  rl --- note4["用奖励 R 优化策略，常与 IL 预训练衔接"]

2. 各路线是什么（定义）

统一符号：

O：当前观测（相机等，可选本体状态）
L：语言任务指令
A：动作（关节、夹爪等，常为 action chunk）
S：未来世界 / 未来视频表示（WAM Video 中通常是可解码的时空 latent）

VLA（Vision-Language-Action）

定义：在 视觉–语言模型（VLM） 上接 动作头，从 (O, L) 直接映射到 A。核心是学条件分布 P(A | O, L)，通过模仿学习（IL）对齐专家示教，强调语义理解、多任务指令与较短推理路径。

典型形态：ViT + LLM 编码 → 理解表示 H → Action Head（或 Flow Matching 等）出连续动作。

WAM · Video（视频世界模型 + 控制）

定义：在 (O, L) 条件下预测 未来视频的时空 latent S 与 动作 A，即 P(S, A | O, L)。S 对应真实后续帧经 VAE 等编码，可 解码为可见未来；常依托 大规模视频预训练（如 Wan / Cosmos 类 DiT + VAE）再做机器人后训练。

与 VLA 的分野：显式建模「后果」，且未来以 密集、可想象的画面 表示，物理外观与运动先验强，算力与推理成本通常最高。

WAM · Latent（潜空间世界模型 + 控制）

定义：World Action Model 的潜空间变体。在同一 (O, L) 条件下同时预测 未来世界的紧凑表示 Z 与 动作 A，即 P(Z, A | O, L)。Z 由真实后续帧/状态编码得到，不可解码为像素视频；部署时通常只输出 A，Ẑ 用于训练对齐或内部规划。

与 Video 的分野：同样建模世界动力学，但用 低维潜空间 承载未来，不扛像素级视频解码；算力与延迟介于 VLA 与 Video 之间。

Reinforcement Learning（强化学习）

定义：在环境交互中根据 奖励 R（任务成功、进度、安全等）优化 策略 π，使长期回报最大。在具身大脑语境下，RL 很少单独作为从零开始的唯一范式，而多作为：

IL / VLA / WAM 预训练之后的第二阶段（先模仿专家 θ₁，再 rollout + RL 得 θ₂）；
或在仿真 / 真机闭环中 修正分布外误差、提升成功率。

RL 不改变「用 VLM 还是世界模型」的架构选择，而是 同一策略网络上的优化目标与数据闭环 发生变化。

3. 重点关注的核心问题

下列问题在“路线对比：异同、适用场景与资源投入”中展开；此处仅作索引。

问题	简要指向
1. 大同小异，还是本质区别？	共享 Transformer / 视觉编码等底座，工程上会趋同；差别在是否预测未来、未来用无 / S / Z 哪种表示，以及数据与算力结构
2. 各自更适合做什么？	VLA 偏指令泛化与快速闭环；Video 偏「看见未来」与视频先验；Latent 偏世界知识 + 低延迟
3. 资源投入：大厂、政府、高校院所	大厂重底座与产品；政策重公共数采/评测/算力；高校重方法、复现与产学研对接，不宜重复全栈巨型预训练