WAM · RL 逻辑与训练

逻辑

flowchart LR
  sup["阶段 1 · 监督学习<br/>示教 O , L , A*<br/>+ 未来世界监督<br/>学世界 + 动作"]
  rl["阶段 2 · RL<br/>真机 / 仿真 rollout<br/>用奖励 R 改策略"]
  deploy["部署<br/>O , L → 动作 A<br/>（世界模块可内用于规划）"]

  sup -->|"θ₁<br/>监督目标下的最优解"| rl
  rl -->|"θ₂<br/>RL 优化后的更优解"| deploy

θ₁：在 视频基座模型 或 潜空间世界模块 上，用示教做完监督训练后的最优参数（已会预测未来 + 出动作），不是预训练权重 θ₀ 本身。
θ₂：在同一套 WAM 上用 R 继续优化；在 任务回报 意义下通常优于 θ₁。RL 常主要改 动作 / 价值头，世界模块 可冻结可轻微微调。
不区分 Video / Latent：阶段 1 训的是哪类世界表示，阶段 2 都在 该表示已学成 的基础上做 RL。

训练过程

flowchart TB
  subgraph phase1["阶段 1 · 监督学习（纯 WAM 主线）"]
    theta0["θ₀：视频 / 潜空间预训练权重<br/>（如 Wan · Cosmos 或人类视频表征）"]
    data_sup["示教数据<br/>O , L , A*<br/>+ 未来世界标签"]
    fut["未来监督<br/>S* 或 Z*"]
    fwd_sup["前向：O , L → WAM → Ŝ/Ẑ , Â"]
    loss_sup["Loss_sup<br/>Ŝ/Ẑ 对齐未来 · Â 对齐 A*"]
    theta1["θ₁ · 监督目标下的最优解"]
    theta0 --> fwd_sup
    data_sup --> fwd_sup
    fut --> loss_sup
    fwd_sup --> loss_sup --> theta1
  end

  subgraph phase2["阶段 2 · RL"]
    env_data["rollout 数据<br/>O , L , A , R<br/>（+ 可选想象轨迹 · value）"]
    fwd_rl["执行 π(θ₁) 或<br/>在世界模型中想象多条未来再选动作"]
    loss_rl["Loss_RL：PPO / GRPO 等<br/>或 MPC + value 选优"]
    theta2["θ₂ · RL 优化后的更优解"]
    theta1 --> fwd_rl
    fwd_rl --> env_data --> loss_rl --> theta2
  end

  deploy["部署 π(θ₂)<br/>O , L → A"]
  theta2 --> deploy

θ₀：通用视频 / 潜空间预训练；经阶段 1 得到 θ₁（已联合学会 未来世界 + 模仿动作）。
θ₂：用 R 在真机或仿真中优化；可含失败、自 rollout；部署时通常仍 只下发 A，世界表示用于 规划或想象 时可选开启。

WAM + RL：在已学世界表示上优化动作

WAM · RL 逻辑与训练

逻辑

训练过程