01 总览 先建立路线地图,再进入核心判断。 3+1 条技术路线与核心关注问题 VLA、WVM Video、WVM Latent、RL 分别是什么?它们是不同还是相似?各自适合做什么?如何投入资源? 异同、适用场景与布局建议 三条路线不是简单换皮,也不是无关物种
02 共性目标 统一理解系统输入、输出与未来表示,避免术语混乱。 输入输出基线:O、L、A、S、Z 分别是什么 把各路线统一放到输入输出框架中比较:VLA 主要出动作,WAM 还可能输出未来世界或内部未来表示。
03 路线构架 分别看清 VLA、WAM Video、WAM Latent 的模型结构与训练逻辑。 VLA 架构:从视觉语言理解到动作输出 VLA 以 VLM 为主干,把图像和指令变成理解表示,再由动作头输出机器人动作。 WAM Video 架构:可见未来与机器人动作 WAM Video 依托视频基座预测未来视频 latent 与动作,优势是能“看见未来”,代价是算力更重。 WAM Latent 架构:紧凑未来与低延迟控制 WAM Latent 不生成可见视频,而是在潜空间里承载未来信息,用较低成本服务控制闭环。
04 RL 扩展 理解强化学习如何作为后训练与闭环优化接入。 VLA + RL:从模仿到奖励优化 RL 常作为 VLA 预训练后的闭环优化阶段,用奖励信号进一步提升任务成功率。 WAM + RL:在已学世界表示上优化动作 WAM 的 RL 阶段通常不重新定义世界模型,而是在已学世界表示基础上优化动作与价值。
05 训练数据 判断不同路线需要什么数据、算力和工程闭环。 VLA 训练数据:专家示教与指令泛化 VLA 主要依赖带语言指令的专家示教数据,重点是让视觉语言理解对齐到可执行动作。 WAM Video 训练数据:互联网视频、机器人后训练与未来监督 Video 路线的关键是先吃大规模视频先验,再用机器人数据把未来视频和动作对齐。 WAM Latent 训练数据:未来潜表示与控制闭环 Latent 路线同样需要未来监督,但目标是紧凑未来表示,而不是可见像素视频。