总览

建议使用电脑浏览器，以获得最优阅读效果。

主线思路

01

先回答“有哪些路线”

VLA、WAM Video、WAM Latent 与 RL 分别是什么，它们如何共同构成具身智能大脑的路线图。

02

再回答“差距是什么，该关注什么”？

它们共享底座，但未来建模方式不同：不预测未来、预测可见未来、预测潜空间未来。

03

最后落到“本质是什么，该怎么布局”？

大厂、政府、高校院所承担不同角色，重点不是重复造轮子，而是形成数据、评测、底座与人才闭环。

核心论点

不是多选一，而是分层组合

VLA 更像“看懂就行动”，WAM Video 更像“能想象可见未来再行动”，WAM Latent 则把未来压缩到潜空间中服务低延迟控制。
RL 不是另一套表示范式，而是常用于后训练与闭环优化。

阅读顺序

调研与提问

研判与建议

技术研究文档（细节与构架）