总览
- 建议使用电脑浏览器,以获得最优阅读效果。
主线思路
01
先回答“有哪些路线”
VLA、WAM Video、WAM Latent 与 RL 分别是什么,它们如何共同构成具身智能大脑的路线图。
02
再回答“差距是什么,该关注什么”?
它们共享底座,但未来建模方式不同:不预测未来、预测可见未来、预测潜空间未来。
03
最后落到“本质是什么,该怎么布局”?
大厂、政府、高校院所承担不同角色,重点不是重复造轮子,而是形成数据、评测、底座与人才闭环。
核心论点
不是多选一,而是分层组合
- VLA 更像“看懂就行动”,WAM Video 更像“能想象可见未来再行动”,WAM Latent 则把未来压缩到潜空间中服务低延迟控制。
- RL 不是另一套表示范式,而是常用于后训练与闭环优化。
阅读顺序