VLA · RL 逻辑与训练

逻辑

flowchart LR
  il["阶段 1 · IL<br/>专家示教 O , L , A*<br/>学模仿 P(A|O,L)"]
  rl["阶段 2 · RL<br/>真机 / 仿真 rollout<br/>用奖励 R 改策略"]
  deploy["部署<br/>O , L → 动作 A"]

  il -->|"θ₁<br/>IL 目标下的最优解"| rl
  rl -->|"θ₂<br/>RL 优化后的更优解"| deploy

θ₁：在 模仿专家 目标下训出的最优参数（能动的策略），不是「随便初始化」。
θ₂：在同一网络上用 奖励 R 继续优化，在 任务回报 意义下通常优于 θ₁。
训练流程 先 IL、后 RL；模型 同一套 VLA，推理时不串联两个独立模块。

训练过程

flowchart TB
  subgraph phase1["阶段 1 · IL（与纯 VLA 相同）"]
    theta0["θ₀：VLM 预训练 + 动作头初值"]
    data_il["示教数据<br/>O , L , A*"]
    fwd_il["前向：O , L → VLA → Â"]
    loss_il["Loss_IL：Â 对齐 A*"]
    theta1["θ₁ · IL 目标下的最优解"]
    theta0 --> fwd_il
    data_il --> fwd_il
    fwd_il --> loss_il --> theta1
  end

  subgraph phase2["阶段 2 · RL"]
    env_data["rollout 数据<br/>O , L , A , R<br/>（+ 可选价值 bootstrap）"]
    fwd_rl["在环境中执行 π(θ₁) 收集轨迹"]
    loss_rl["Loss_RL：PPO / GRPO 等<br/>用 R 与优势更新策略"]
    theta2["θ₂ · RL 优化后的更优解"]
    theta1 --> fwd_rl
    fwd_rl --> env_data --> loss_rl --> theta2
  end

  deploy["部署 π(θ₂)<br/>O , L → A"]
  theta2 --> deploy

θ₀：VLM 预训练起点；经阶段 1 优化后得到 θ₁（模仿目标下的最优，非随机初始化）。
θ₂：阶段 2 在 真机或仿真 中用 R 得到，在回报意义下 优于 θ₁；数据可含失败、次优轨迹。

VLA + RL：从模仿到奖励优化

VLA · RL 逻辑与训练

逻辑

训练过程