3+1 条技术路线与核心关注问题

  • 目前主流/高潜力的技术路线:VLA、WVM Video、WVM Latent、RL 分别是什么?
  • 它们是不同还是相似?各自适合做什么?如何投入资源?

1. 技术路线概览

flowchart TB
  brain["具身智能大脑<br/>给定观测 O、指令 L,如何行动 A(未来如何 S)?"]

  brain --> vla["VLA<br/>Vision-Language-Action"]
  brain --> wamv["WAM · Video<br/>视频世界模型 + 动作"]
  brain --> waml["WAM · Latent<br/>潜空间世界模型 + 动作"]
  brain --> rl["RL<br/>强化学习(常作后训练 / 闭环优化)"]

  vla --- note1["直接学 P(A|O,L)"]
  wamv --- note2["学 P(S,A|O,L),S 为可解码未来画面"]
  waml --- note3["学 P(Z,A|O,L),Z 为紧凑未来"]
  rl --- note4["用奖励 R 优化策略,常与 IL 预训练衔接"]

2. 各路线是什么(定义)

统一符号:

  • O:当前观测(相机等,可选本体状态)
  • L:语言任务指令
  • A:动作(关节、夹爪等,常为 action chunk)
  • S:未来世界 / 未来视频表示(WAM Video 中通常是可解码的时空 latent)

VLA(Vision-Language-Action)

定义:在 视觉–语言模型(VLM) 上接 动作头,从 (O, L) 直接映射到 A。核心是学条件分布 P(A | O, L),通过模仿学习(IL)对齐专家示教,强调语义理解、多任务指令与较短推理路径。

典型形态:ViT + LLM 编码 → 理解表示 H → Action Head(或 Flow Matching 等)出连续动作。

WAM · Video(视频世界模型 + 控制)

定义:在 (O, L) 条件下预测 未来视频的时空 latent S动作 A,即 P(S, A | O, L)S 对应真实后续帧经 VAE 等编码,可 解码为可见未来;常依托 大规模视频预训练(如 Wan / Cosmos 类 DiT + VAE)再做机器人后训练。

与 VLA 的分野:显式建模「后果」,且未来以 密集、可想象的画面 表示,物理外观与运动先验强,算力与推理成本通常最高。

WAM · Latent(潜空间世界模型 + 控制)

定义World Action Model 的潜空间变体。在同一 (O, L) 条件下同时预测 未来世界的紧凑表示 Z动作 A,即 P(Z, A | O, L)Z 由真实后续帧/状态编码得到,不可解码为像素视频;部署时通常只输出 A,Ẑ 用于训练对齐或内部规划。

与 Video 的分野:同样建模世界动力学,但用 低维潜空间 承载未来,不扛像素级视频解码;算力与延迟介于 VLA 与 Video 之间。

Reinforcement Learning(强化学习)

定义:在环境交互中根据 奖励 R(任务成功、进度、安全等)优化 策略 π,使长期回报最大。在具身大脑语境下,RL 很少单独作为从零开始的唯一范式,而多作为:

  • IL / VLA / WAM 预训练之后的第二阶段(先模仿专家 θ₁,再 rollout + RL 得 θ₂);
  • 或在仿真 / 真机闭环中 修正分布外误差、提升成功率

RL 不改变「用 VLM 还是世界模型」的架构选择,而是 同一策略网络上的优化目标与数据闭环 发生变化。

3. 重点关注的核心问题

下列问题在“路线对比:异同、适用场景与资源投入”中展开;此处仅作索引。

问题 简要指向
1. 大同小异,还是本质区别? 共享 Transformer / 视觉编码等底座,工程上会趋同;差别在是否预测未来、未来用 无 / S / Z 哪种表示,以及数据与算力结构
2. 各自更适合做什么? VLA 偏指令泛化与快速闭环;Video 偏「看见未来」与视频先验;Latent 偏世界知识 + 低延迟
3. 资源投入:大厂、政府、高校院所 大厂重底座与产品;政策重公共数采/评测/算力;高校重方法、复现与产学研对接,不宜重复全栈巨型预训练