北京具身智能大脑:技术路线研判与政策建议
本站把研究文档整理成一条清晰阅读路径:先建立路线地图,再理解核心判断,最后按架构、数据和
RL 扩展查阅技术细节。内容来自 research/markdown,但展示时尽量使用语义化标题和导读。
01
先回答“有哪些路线”
VLA、WAM Video、WAM Latent 与 RL 分别是什么,它们如何共同构成具身智能大脑的路线图。
02
再回答“到底差在哪”
它们共享底座,但未来建模方式不同:不预测未来、预测可见未来、预测潜空间未来。
03
最后落到“怎么投入”
大厂、政府、高校院所承担不同角色,重点不是重复造轮子,而是形成数据、评测、底座与人才闭环。
核心论点
不是三选一,而是分层组合
VLA 更像“看懂就行动”,WAM Video 更像“能想象可见未来再行动”,WAM Latent 则把未来压缩到潜空间中服务低延迟控制。 RL 不是另一套表示范式,而是常用于后训练与闭环优化。