WAM · RL 逻辑与训练
逻辑
flowchart LR
sup["阶段 1 · 监督学习<br/>示教 O , L , A*<br/>+ 未来世界监督<br/>学世界 + 动作"]
rl["阶段 2 · RL<br/>真机 / 仿真 rollout<br/>用奖励 R 改策略"]
deploy["部署<br/>O , L → 动作 A<br/>(世界模块可内用于规划)"]
sup -->|"θ₁<br/>监督目标下的最优解"| rl
rl -->|"θ₂<br/>RL 优化后的更优解"| deploy
θ₁:在 视频基座模型 或 潜空间世界模块 上,用示教做完监督训练后的最优参数(已会预测未来 + 出动作),不是预训练权重 θ₀ 本身。
θ₂:在同一套 WAM 上用 R 继续优化;在 任务回报 意义下通常优于 θ₁。RL 常主要改 动作 / 价值头,世界模块 可冻结可轻微微调。
不区分 Video / Latent:阶段 1 训的是哪类世界表示,阶段 2 都在 该表示已学成 的基础上做 RL。
训练过程
flowchart TB
subgraph phase1["阶段 1 · 监督学习(纯 WAM 主线)"]
theta0["θ₀:视频 / 潜空间预训练权重<br/>(如 Wan · Cosmos 或人类视频表征)"]
data_sup["示教数据<br/>O , L , A*<br/>+ 未来世界标签"]
fut["未来监督<br/>S* 或 Z*"]
fwd_sup["前向:O , L → WAM → Ŝ/Ẑ , Â"]
loss_sup["Loss_sup<br/>Ŝ/Ẑ 对齐未来 · Â 对齐 A*"]
theta1["θ₁ · 监督目标下的最优解"]
theta0 --> fwd_sup
data_sup --> fwd_sup
fut --> loss_sup
fwd_sup --> loss_sup --> theta1
end
subgraph phase2["阶段 2 · RL"]
env_data["rollout 数据<br/>O , L , A , R<br/>(+ 可选想象轨迹 · value)"]
fwd_rl["执行 π(θ₁) 或<br/>在世界模型中想象多条未来再选动作"]
loss_rl["Loss_RL:PPO / GRPO 等<br/>或 MPC + value 选优"]
theta2["θ₂ · RL 优化后的更优解"]
theta1 --> fwd_rl
fwd_rl --> env_data --> loss_rl --> theta2
end
deploy["部署 π(θ₂)<br/>O , L → A"]
theta2 --> deploy
θ₀:通用视频 / 潜空间预训练;经阶段 1 得到 θ₁(已联合学会 未来世界 + 模仿动作)。
θ₂:用 R 在真机或仿真中优化;可含失败、自 rollout;部署时通常仍 只下发 A,世界表示用于 规划或想象 时可选开启。