北京具身智能大脑：技术路线研判与政策建议

本站把研究文档整理成一条清晰阅读路径：先建立路线地图，再理解核心判断，最后按架构、数据和 RL 扩展查阅技术细节。内容来自 research/markdown，但展示时尽量使用语义化标题和导读。

开始阅读导览查看核心判断进入文档中心

先回答“有哪些路线”

VLA、WAM Video、WAM Latent 与 RL 分别是什么，它们如何共同构成具身智能大脑的路线图。

再回答“到底差在哪”

它们共享底座，但未来建模方式不同：不预测未来、预测可见未来、预测潜空间未来。

最后落到“怎么投入”

大厂、政府、高校院所承担不同角色，重点不是重复造轮子，而是形成数据、评测、底座与人才闭环。

核心论点

不是三选一，而是分层组合

VLA 更像“看懂就行动”，WAM Video 更像“能想象可见未来再行动”，WAM Latent 则把未来压缩到潜空间中服务低延迟控制。 RL 不是另一套表示范式，而是常用于后训练与闭环优化。

读完整对比

1. 总览与核心判断

先读这篇

3+1 条技术路线与核心关注问题

VLA、WVM Video、WVM Latent、RL 分别是什么？它们是不同还是相似？各自适合做什么？如何投入资源？

核心结论

路线对比：异同、适用场景与资源投入

三条路线不是简单换皮，也不是无关物种；关键差别在是否建模未来，以及未来用视频还是潜空间表示。

共同语言

输入输出基线：O、L、A、S、Z 分别是什么

把各路线统一放到输入输出框架中比较：VLA 主要出动作，WAM 还可能输出未来世界或内部未来表示。

2. 三条主路线的架构

VLA

VLA 架构：从视觉语言理解到动作输出

VLA 以 VLM 为主干，把图像和指令变成理解表示，再由动作头输出机器人动作。

WAM Video

WAM Video 架构：可见未来与机器人动作

WAM Video 依托视频基座预测未来视频 latent 与动作，优势是能“看见未来”，代价是算力更重。

WAM Latent

WAM Latent 架构：紧凑未来与低延迟控制

WAM Latent 不生成可见视频，而是在潜空间里承载未来信息，用较低成本服务控制闭环。

3. RL 闭环优化

强化学习

VLA + RL：从模仿到奖励优化

RL 常作为 VLA 预训练后的闭环优化阶段，用奖励信号进一步提升任务成功率。

强化学习

WAM + RL：在已学世界表示上优化动作

WAM 的 RL 阶段通常不重新定义世界模型，而是在已学世界表示基础上优化动作与价值。

4. 训练数据与落地条件

训练数据

VLA 训练数据：专家示教与指令泛化

VLA 主要依赖带语言指令的专家示教数据，重点是让视觉语言理解对齐到可执行动作。

训练数据

WAM Video 训练数据：互联网视频、机器人后训练与未来监督

Video 路线的关键是先吃大规模视频先验，再用机器人数据把未来视频和动作对齐。

训练数据

WAM Latent 训练数据：未来潜表示与控制闭环

Latent 路线同样需要未来监督，但目标是紧凑未来表示，而不是可见像素视频。