← 返回文档列表

强化学习

WAM + RL:在已学世界表示上优化动作

WAM 的 RL 阶段通常不重新定义世界模型,而是在已学世界表示基础上优化动作与价值。

WAM · RL 逻辑与训练

逻辑

flowchart LR
  sup["阶段 1 · 监督学习<br/>示教 O , L , A*<br/>+ 未来世界监督<br/>学世界 + 动作"]
  rl["阶段 2 · RL<br/>真机 / 仿真 rollout<br/>用奖励 R 改策略"]
  deploy["部署<br/>O , L → 动作 A<br/>(世界模块可内用于规划)"]

  sup -->|"θ₁<br/>监督目标下的最优解"| rl
  rl -->|"θ₂<br/>RL 优化后的更优解"| deploy

θ₁:在 视频基座模型潜空间世界模块 上,用示教做完监督训练后的最优参数(已会预测未来 + 出动作),不是预训练权重 θ₀ 本身。
θ₂:在同一套 WAM 上用 R 继续优化;在 任务回报 意义下通常优于 θ₁。RL 常主要改 动作 / 价值头,世界模块 可冻结可轻微微调
不区分 Video / Latent:阶段 1 训的是哪类世界表示,阶段 2 都在 该表示已学成 的基础上做 RL。


训练过程

flowchart TB
  subgraph phase1["阶段 1 · 监督学习(纯 WAM 主线)"]
    theta0["θ₀:视频 / 潜空间预训练权重<br/>(如 Wan · Cosmos 或人类视频表征)"]
    data_sup["示教数据<br/>O , L , A*<br/>+ 未来世界标签"]
    fut["未来监督<br/>S* 或 Z*"]
    fwd_sup["前向:O , L → WAM → Ŝ/Ẑ , Â"]
    loss_sup["Loss_sup<br/>Ŝ/Ẑ 对齐未来 · Â 对齐 A*"]
    theta1["θ₁ · 监督目标下的最优解"]
    theta0 --> fwd_sup
    data_sup --> fwd_sup
    fut --> loss_sup
    fwd_sup --> loss_sup --> theta1
  end

  subgraph phase2["阶段 2 · RL"]
    env_data["rollout 数据<br/>O , L , A , R<br/>(+ 可选想象轨迹 · value)"]
    fwd_rl["执行 π(θ₁) 或<br/>在世界模型中想象多条未来再选动作"]
    loss_rl["Loss_RL:PPO / GRPO 等<br/>或 MPC + value 选优"]
    theta2["θ₂ · RL 优化后的更优解"]
    theta1 --> fwd_rl
    fwd_rl --> env_data --> loss_rl --> theta2
  end

  deploy["部署 π(θ₂)<br/>O , L → A"]
  theta2 --> deploy

θ₀:通用视频 / 潜空间预训练;经阶段 1 得到 θ₁(已联合学会 未来世界 + 模仿动作)。
θ₂:用 R 在真机或仿真中优化;可含失败、自 rollout;部署时通常仍 只下发 A,世界表示用于 规划或想象 时可选开启。