总览

主线思路

01

先回答“有哪些路线”

VLA、WAM Video、WAM Latent 与 RL 分别是什么,它们如何共同构成具身智能大脑的路线图。

02

再回答“差距是什么,该关注什么”?

它们共享底座,但未来建模方式不同:不预测未来、预测可见未来、预测潜空间未来。

03

最后落到“本质是什么,该怎么布局”?

大厂、政府、高校院所承担不同角色,重点不是重复造轮子,而是形成数据、评测、底座与人才闭环。

核心论点

不是多选一,而是分层组合

  • VLA 更像“看懂就行动”,WAM Video 更像“能想象可见未来再行动”,WAM Latent 则把未来压缩到潜空间中服务低延迟控制。
  • RL 不是另一套表示范式,而是常用于后训练与闭环优化。

阅读顺序