未开启屏蔽访客功能,允许调试 IC{ML 2026 | 告别「利用率崩溃,」:GIPO开启大模型强化学习高效训练}新方法
郑州华罡通讯 2026-05-16
首页 » 华罡通讯 » 正文

IC{ML 2026 | 告别「利用率崩溃,」:GIPO开启大模型强化学习高效训练}新方法

凤之愿
大白小雨 郑州日报 | 2026-05-16 18:28:18

在现代强化学习系统(如训练视觉语言动作模型 VLA 或大规模机器人控制策略)中,由于策略滞后(Policy Lag)导致数据 Off-policy 现象已成为难以避免的常态。无论是在数据被反复复用迭代的同步更新中,还是在采样与训练解耦的分布式 Actor-Learner 异步架构下,存在数据与当前策略的脱节问题。特别是在具身真机场景下,由于物理采集缓慢且高度依赖历史数据回放,这种滞后程度更是被推向了极端。

这种在吞吐量与样本效率之间的权衡会引入策略滞后。随着策略滞后不断积累,数据分布逐渐偏离当前策略,行为策略与目标策略之间的差异持续扩大,重要性采样的方差随之迅速增长,最终可能导致策略梯度估计变得不稳定,直接影响模型的正常训练。当训练器优化当前策略

经常会大幅度偏离 1,展现出严重的重尾分布(Heavy-tailed distribution),这为后续的优化埋下了隐患。

。在依赖回放的场景下,

来量化:

时,它所利用的数据与当前策略分布之间可能存在偏移,这种不一致性由重要性比率(Importance Ratio)

近期,来自树根科技与三一集团团队联合提出了 GIPO 算法,在机器人操控及大语言 / 视觉动作模型(VLA)强化学习训练中,GIPO 既显著缓解了数据短缺导致的策略滞后痛点,又有效改善了 PPO 硬截断引发的 “利用率崩溃(Utilization Collapse)” 问题。

GIPO 论文链接:https://arxiv.org/abs/2603.03955

论文标题 1:GIPO: Gaussian Importance Sampling Policy Optimization

AcceRL 论文链接:https://arxiv.org/abs/2603.18464

论文标题 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models

GIPO :用比例看问题,而不是用绝对差值看问题

核心公式

GIPO 不使用分段常数函数来截断梯度,而是为每一个重要性比率。首先定义离散的重要性比率

为停止梯度算子),信任权重定义为:

(其中

分配一个基于高斯核的信任权重系数

其中,

是统一的尺度参数,决定了信任区域的宽窄 。由此,将该权重引入策略优化目标,得到 GIPO 的损失函数:

在反向传播中,由于

,它被视为常数系数,从而提升了梯度的稳定性。如图 1 所示,GIPO 的核心动机是用平滑的连续衰减替代硬性的截断,在对数空间内构建一个理论完备且对称的信任区域。

仅取决于停止梯度的

图 1:GIPO 高斯信任权重与对数空间对称性相比于 PPO 的阶跃式截断,GIPO(橙线)展现了平滑的钟形曲线,使每个样本仍然能够贡献微小但有效的梯度信号。更重要的是 GIPO 对于对重要性比率

对数空间对称性:一种优雅的平衡

为什么选择对数空间?考虑样本的重要性比率。如果目标策略比行为策略的概率高出倍倍(

。由于高斯核函数中包含平方项:

),其对数距离为

。如果概率低

,其对数距离为

这种对数对称性 (

) 意味着 GIPO 平等且一致地处理了概率的 “高估” 与 “低估”。相比之下,PPO 在线性空间进行截断(如 1.2 与 0.8),其算术距离相等但逻辑比例并不对称,这在处理重尾分布时会导致更新的方向性偏差。如图 1 所示,GIPO 通过对数空间操作,确保了无论策略偏离方向如何,更新幅度在逻辑比例上都是对称且平衡的。

平滑性与非零梯度:拯救 “死样本”

PPO 的硬截断是一把 “双刃剑”:它虽然限制了方差,但其分段函数的特性导致在截断边界处导数不连续,且在截断区外梯度直接归零。在边界外,增加 0.1 可能导致梯度从 1 骤降至 0,这种不连续性增加了训练不稳定性。而 GIPO 的权重函数随的偏离而连续、指数级地衰减。即便样本处于严重的策略滞后区(例如。这 “软阻尼” 机制允许那些处于长尾区域的陈旧样本依然能贡献较低方差的梯度信号,从而有效缓解了 “利用率崩溃”,让每一条昂贵的采样轨迹都能参与到策略的迭代中。

),GIPO 也不会像 PPO 那样将其贡献抹杀。相反,GIPO 会分配一个微小但非零的权重

偏差 - 方差的 “帕累托旋钮”

在强化学习的理论框架下,偏差(Bias)与方差(Variance)是一对永恒的矛盾。GIPO 通过尺度参数

的插值作用:

提供了一个可以平滑调节的 “帕累托旋钮”。可以从两个极限状态来理解

1. 当

 (纯在线模式):

高斯核坍缩为一个狄拉克函数,只有

的样本拥有权重。此时算法退化为保守的在线策略更新,拥有低方差但面临高偏差(因为它无视了所有回放数据)。

2. 当

(标准重要性采样模式):

权重

,GIPO 恢复为标准的重要性采样目标。此时算法是无偏的,但在异步环境下会面临很大的方差。

在实际训练中(如

),GIPO 能够获得优秀的偏差 - 方差平衡性。它通过平滑的指数 decay 抑制了长尾部分的方差,同时保留了比 PPO 更多的有效偏差修正。

Advantage-Aware GIPO

对称性是否会放纵 “坏动作”?在强化学习的实际工程中,正负优势(Advantage)具有不同的物理含义:正优势(A > 0)应在信任区域内受到鼓励。负优势(A < 0)代表差的探索结果,理应受到抑制。当一个 “坏动作” 的重要性比率偏离分布时,GIPO 对其施加的对称阻尼是否过于 “温柔”,从而导致在处理大词表或重尾分布样本时,训练收敛速度受阻?针对正负优势的问题,作者引入了 Advantage-Aware GIPO。通过对

实施基于优势符号的条件化约束:

通过设定

,算法在面对负优势样本时,信任区域会更快收敛。这种设计既保留了 GIPO 平滑可导的数学特性,又在物理直觉上实现了对负向更新的抑制。需要强调的是,GIPO 目标函数中重要性比率的对数对称性与优势函数引入的非对称控制在数学逻辑上是完全独立的,两者互不冲突且完美兼容。

理论基石:策略性能下界与有限样本保证

代理目标的理论下界

GIPO 的核心理论贡献之一,是证明了优化其衰减代理目标,依然能提供严格的性能下界保证。假设优势函数有界

,GIPO 满足以下性能下界:

。对于任意截断阈值

注:其中

其中、当前策略和候选策略之间的分布差异。最后一项是 GIPO 特有的惩罚项,GIPO 遇到滞后数据时,为了防止梯度爆炸,会用高斯权重 “温柔地” 把它们的影响力压低,这种 “和稀泥” 的做法虽然保证了训练稳定性,但毕竟扭曲了原始数据的权重,带来了一点点偏差,这一项,就是把这种 “为了稳妥而引入的偏差” 明码标价算了出来。

为实际优化目标,即模型采用新策略后在真实环境中的期望收益,也就是模型采用新策略后,在真实环境里到底能拿多少分。第二项是分布偏移惩罚项(含 C 的项),这一项继承自 Off-policy TRPO,惩罚了行为策略

有限样本控制与稳定性 

在真实的 RL 训练中,由于无法计算期望,只能从回放池中抽取有限的 Batch Size(假设为 N)来进行经验估计(Empirical Estimation):

如果没有良好的方差控制,有限样本下的估计会存在巨大的 “采样噪声”,导致所谓的 “优化错觉”(即经验代理目标上升了,但真实期望反而下降了),这正是模型训练崩盘(Training Collapse)的元凶。GIPO 首先证明了其高斯权重设计赋予了有效乘数

严格的全局上下界:

基于上述全局有界性,可以直接应用 Hoeffding 不等式,得出经验估计与真实期望之间的概率误差界限。 对于任意置信度水平

的概率,以下不等式成立:

,以至少

由于等式右侧的误差项被严格绑定在常数

上,GIPO 能在有限样本下提供高置信度的策略改进保证。 这就是 GIPO 在高难度机器人任务中比 PPO 稳定的数学保证。

和批量大小

实验结果: 方差 - 偏差平衡性能和 7B VLA 工业落地

方差 - 偏差平衡性能帕累托最优

为什么 GIPO 能在宏观表现上优秀?为了在微观层面把逻辑盘透,作者构建了一个完全可枚举的

GridWorld(网格世界)玩具环境。由于环境简单,研究人员可以直接通过贝尔曼方程进行动作枚举,精确计算出梯度估计的真实偏差(Bias)和真实方差(Variance),从而排除了蒙特卡洛采样噪声的干扰。团队模拟了从严重滞后(Case A)到轻度滞后(Case C)的不同场景。

分析结果展现了 GIPO 良好的方差 - 偏差平衡性:在严重滞后的场景(Case A, B)中,PPO 测算出的方差竟然是 0。但这根本不是因为 PPO 稳定,而是因为其硬截断机制将所有样本直接判断为 “越界”,导致 100% 的样本梯度死亡。没有梯度,自然没有方差,这等同于模型停止了学习。

相比之下,GIPO 的参数

,GIPO 能够压制重尾比率带来的高方差,同时保留可靠更新的方向 。在所有的滞后场景下,GIPO 的表现都贴合偏差 - 方差帕累托前沿(Pareto Frontier)。而 SAPO 的不对称性导致其引入了劣于 GIPO 的偏差分布,无法触及帕累托前沿。

表现出了优秀的 “帕累托旋钮(Pareto knob)” 特性。通过调节

图 2:2x2 网格世界中的偏差 - 方差权衡。GIPO(虚线)真正定义了帕累托前沿(Pareto Frontier),而 PPO 在高滞后场景下完全停止了学习

工业级验证规模

在当前的具身智能领域,受限于高昂的物理交互成本与长视野连续控制的复杂性,能将策略优化算法直接部署到数十亿参数模型上的研究并不多见。GIPO 团队为了验证其算法在真实世界扩展性(Scalability),投入了庞大的计算资源:模型基座使用了 7B 参数量的 OpenVLA-OFT 作为骨干网络,整个评估过程耗费了超过 10,000 H200 GPU 小时,在 LIBERO 机器人多任务操作基准上,处理了超过 7.3 亿次交互采样。

为了评估算法对策略滞后的鲁棒性,研究团队设计了两种数据场景,通过控制采样器(Actors)与训练器(Trainers)的比例来人为制造不同程度的数据滞后。新鲜场景(Fresh Regime):配置 10 个采样器对 1 个训练器(或类似高吞吐配置),数据收集快,回放池中的样本非常接近当前策略。陈旧场景(Stale Regime):强制降低吞吐量(例如 1 个采样器对 1 个训练器),导致训练器不得不反复咀嚼回放池中陈旧的历史数据,制造类似于真机场景的策略滞后。

如图 3 所示,在新鲜场景下,GIPO、PPO 与 SAPO 均能取得不错的表现,GIPO 略占优或持平。然而,一旦切换到陈旧场景,算法之间的性能差距就会被拉开。在面对陈旧数据时,PPO 的学习曲线往往在早期就陷入停滞,最终收敛到一个较低的平均回报水平。SAPO 虽然引入了软门控,但在处理高滞后数据时,依然表现出较大的波动和次优的样本效率。而 GIPO 能更快逼近最优成功率,展现出很强的抗滞后能力和稳定性。

图 3:LIBERO 机器人套件学习曲线。在 LIBERO-Spatial 和 LIBERO-10 等复杂任务中,GIPO 的优势被进一步放大,展现了在数十亿参数 VLA 任务中实战价值

Metaworld 多种子实验

在 MetaWorld Stale(陈旧数据环境)下,团队对比了 8 种算法配置(包含优势感知变体),覆盖了 10 个不同的机器人操控任务。为了消除随机性干扰,每一个配置 5 个随机种子,总共运行 400 个独立的训练实例。在统计指标 IQM(Interquartile Mean,分位数均值) 排名中,GIPO 展示出了非常大的优势,如下面的聚合排名表所示,GIPO 系列占据了前 6 名位置,其中 GIPO (1.0, 1.0) 平均归一化得分(0.730)甚至达到了 PPO(0.180)的 4 倍之多。

内部分别为:正负优势对应的

系数

GIPO 变体的 IQM 表现显著高于 SAPO 与 PPO 基准。即便在策略滞后环境下,其展现出的成功率提升曲线依然保持着惊人的平滑度。同时,实验结果有力地验证了 “对数对称性” 与 “优势感知” 可以兼容,而且相得益彰。GIPO 的数学框架可以轻松嵌入非对称逻辑,同时维持其独有的理论稳定性上限。

值得注意的是,GIPO 的卓越性并不局限于应对滞后的 “救场”。在策略滞后轻微的新鲜场景下,GIPO 同样展现出了优良的性能上限。在涵盖 10 个任务、总计 250 次独立训练运行的大规模 MetaWorld Fresh 实验中,GIPO 依然保持了领先优势。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位数均值)得分依然达到了 PPO 的两倍以上。这意味着 GIPO 不仅能处理 “旧数据”,也能更好发挥 “新数据” 的价值,显著提升了在线 RL 的学习效率。

大模型落地的 “稳压器”:GIPO 助推 AcceRL 登顶 SOTA

如何高效地进行数十亿参数规模的视觉 - 语言 - 动作(VLA)模型的强化学习训练是行业公认的难题。为此,团队推出了 AcceRL —— 首个专为 VLA 模型设计的全异步、解耦式强化学习与世界模型框架。

AcceRL 通过物理隔离训练、推理与采样流,打破了传统框架中的同步屏障,并首次引入了 “即插即用” 的可训练世界模型,实现了惊人的 200 倍(20,000%)数据效率提升,然而,这种优秀的工程性能对底层算法的稳定性提出了更高要求,这正是 GIPO 大显身手的舞台。

为什么 AcceRL 选择 GIPO?

AcceRL 通过物理隔离设计大幅提升了系统的吞吐量。然而,这种 “全异步” 的分布式架构是一把双刃剑:它在消除硬件闲置、实现吞吐量超线性扩展的同时,不可避免地带来了剧烈的策略滞后(Policy Lag)。

在 AcceRL 的非阻塞管道中,训练与采样独立进行,导致回放池中充斥着陈旧的 Off-policy 数据。实验证明,在这种滞后场景下,标准 PPO 会频繁触发硬截断机制,导致大量包含关键修正信号的样本梯度直接归零,沦为毫无贡献的 “死样本”,阻碍训练效率。

GIPO 通过其标志性的平滑高斯信任权重,为 AcceRL 提供了一套具备数学保证的阻尼机制,使其能够稳健地消化这些陈旧样本,成为了整个框架处理异步偏差的核心优化引擎。此外 AcceRL 实现了利用世界模型想象生成强化学习训练数据。虽然这些数据扩展了探索边界,但也存在合成偏差。GIPO 利用对数空间对称性,提取了这些想象数据中的改进信号,使得 “在想象中学习” 不再因梯度不稳定而崩溃。

如下图所示,在针对算法目标的消融实验中,配备 GIPO 的系统表现出了惊人的学习速度。GIPO 在约 8,000 步时达到的性能水平,标准 PPO 需要耗费 60,000 步才能触及。这意味着在相同的硬件环境下,GIPO 将样本利用效率提升了整整 7.5 倍。

登顶 LIBERO

在 LIBERO 的长视野(Long-horizon)操控任务中,GIPO 助力 AcceRL 展示了优秀的稳定性。相比于对早期误差敏感的传统监督微调(Success Rate 90.7%),AcceRL 在 GIPO 的支撑下实现了突破:在 LIBERO-Long 任务套件中,AcceRL 达成了 99.1% 的成功率。这种表现源于 GIPO 优异的偏差 - 方差权衡,它确保了模型在执行复杂多步动作时,能够从轻微的扰动中恢复,维持了策略在长周期内的连续性与稳定性。

结语:算法美学与工程力量的共振

AcceRL 框架的成功,验证了 GIPO 在大规模异步训练中的底层基石作用。通过稳健地处理异策略偏差,GIPO 突破了分布式系统的稳定性瓶颈,为‘大规模 VLA + 异步 RL + 世界模型’这一架构提供了可靠的算法护航,并最终在 LIBERO 基准测试中取得了 SOTA 成绩。

精选大乐透推荐:虎哥擒一等1156万 7人中二等87万
叶一茜在《乘风2026》演唱《他不懂》获得了怎样的评价?
采编:安东尼罗素 阅读 40067

华罡通讯推荐