技术研究文档 | 北京具身智能大脑

总览

先建立路线地图，再进入核心判断。

VLA、WVM Video、WVM Latent、RL 分别是什么？它们是不同还是相似？各自适合做什么？如何投入资源？

三条路线不是简单换皮，也不是无关物种

统一理解系统输入、输出与未来表示，避免术语混乱。

把各路线统一放到输入输出框架中比较：VLA 主要出动作，WAM 还可能输出未来世界或内部未来表示。

分别看清 VLA、WAM Video、WAM Latent 的模型结构与训练逻辑。

VLA 以 VLM 为主干，把图像和指令变成理解表示，再由动作头输出机器人动作。

WAM Video 依托视频基座预测未来视频 latent 与动作，优势是能“看见未来”，代价是算力更重。

WAM Latent 不生成可见视频，而是在潜空间里承载未来信息，用较低成本服务控制闭环。

理解强化学习如何作为后训练与闭环优化接入。

RL 常作为 VLA 预训练后的闭环优化阶段，用奖励信号进一步提升任务成功率。

WAM 的 RL 阶段通常不重新定义世界模型，而是在已学世界表示基础上优化动作与价值。

判断不同路线需要什么数据、算力和工程闭环。

VLA 主要依赖带语言指令的专家示教数据，重点是让视觉语言理解对齐到可执行动作。

Video 路线的关键是先吃大规模视频先验，再用机器人数据把未来视频和动作对齐。

Latent 路线同样需要未来监督，但目标是紧凑未来表示，而不是可见像素视频。