← 返回文档列表

强化学习

VLA + RL:从模仿到奖励优化

RL 常作为 VLA 预训练后的闭环优化阶段,用奖励信号进一步提升任务成功率。

VLA · RL 逻辑与训练

逻辑

flowchart LR
  il["阶段 1 · IL<br/>专家示教 O , L , A*<br/>学模仿 P(A|O,L)"]
  rl["阶段 2 · RL<br/>真机 / 仿真 rollout<br/>用奖励 R 改策略"]
  deploy["部署<br/>O , L → 动作 A"]

  il -->|"θ₁<br/>IL 目标下的最优解"| rl
  rl -->|"θ₂<br/>RL 优化后的更优解"| deploy

θ₁:在 模仿专家 目标下训出的最优参数(能动的策略),不是「随便初始化」。
θ₂:在同一网络上用 奖励 R 继续优化,在 任务回报 意义下通常优于 θ₁。
训练流程 先 IL、后 RL;模型 同一套 VLA,推理时 串联两个独立模块。


训练过程

flowchart TB
  subgraph phase1["阶段 1 · IL(与纯 VLA 相同)"]
    theta0["θ₀:VLM 预训练 + 动作头初值"]
    data_il["示教数据<br/>O , L , A*"]
    fwd_il["前向:O , L → VLA → Â"]
    loss_il["Loss_IL:Â 对齐 A*"]
    theta1["θ₁ · IL 目标下的最优解"]
    theta0 --> fwd_il
    data_il --> fwd_il
    fwd_il --> loss_il --> theta1
  end

  subgraph phase2["阶段 2 · RL"]
    env_data["rollout 数据<br/>O , L , A , R<br/>(+ 可选价值 bootstrap)"]
    fwd_rl["在环境中执行 π(θ₁) 收集轨迹"]
    loss_rl["Loss_RL:PPO / GRPO 等<br/>用 R 与优势更新策略"]
    theta2["θ₂ · RL 优化后的更优解"]
    theta1 --> fwd_rl
    fwd_rl --> env_data --> loss_rl --> theta2
  end

  deploy["部署 π(θ₂)<br/>O , L → A"]
  theta2 --> deploy

θ₀:VLM 预训练起点;经阶段 1 优化后得到 θ₁(模仿目标下的最优,非随机初始化)。
θ₂:阶段 2 在 真机或仿真 中用 R 得到,在回报意义下 优于 θ₁;数据可含失败、次优轨迹。