VLA · RL 逻辑与训练
逻辑
flowchart LR
il["阶段 1 · IL<br/>专家示教 O , L , A*<br/>学模仿 P(A|O,L)"]
rl["阶段 2 · RL<br/>真机 / 仿真 rollout<br/>用奖励 R 改策略"]
deploy["部署<br/>O , L → 动作 A"]
il -->|"θ₁<br/>IL 目标下的最优解"| rl
rl -->|"θ₂<br/>RL 优化后的更优解"| deploy
θ₁:在 模仿专家 目标下训出的最优参数(能动的策略),不是「随便初始化」。
θ₂:在同一网络上用 奖励 R 继续优化,在 任务回报 意义下通常优于 θ₁。
训练流程 先 IL、后 RL;模型 同一套 VLA,推理时 不 串联两个独立模块。
训练过程
flowchart TB
subgraph phase1["阶段 1 · IL(与纯 VLA 相同)"]
theta0["θ₀:VLM 预训练 + 动作头初值"]
data_il["示教数据<br/>O , L , A*"]
fwd_il["前向:O , L → VLA → Â"]
loss_il["Loss_IL:Â 对齐 A*"]
theta1["θ₁ · IL 目标下的最优解"]
theta0 --> fwd_il
data_il --> fwd_il
fwd_il --> loss_il --> theta1
end
subgraph phase2["阶段 2 · RL"]
env_data["rollout 数据<br/>O , L , A , R<br/>(+ 可选价值 bootstrap)"]
fwd_rl["在环境中执行 π(θ₁) 收集轨迹"]
loss_rl["Loss_RL:PPO / GRPO 等<br/>用 R 与优势更新策略"]
theta2["θ₂ · RL 优化后的更优解"]
theta1 --> fwd_rl
fwd_rl --> env_data --> loss_rl --> theta2
end
deploy["部署 π(θ₂)<br/>O , L → A"]
theta2 --> deploy
θ₀:VLM 预训练起点;经阶段 1 优化后得到 θ₁(模仿目标下的最优,非随机初始化)。
θ₂:阶段 2 在 真机或仿真 中用 R 得到,在回报意义下 优于 θ₁;数据可含失败、次优轨迹。