三种主要强化学习(RL)算法的发展历程:GRPO、Dr.GRPO 和 GSPO ylc3000 2025-11-19 0 浏览 0 点赞 长文 这篇文章详细总结了用于大型语言模型(LLM)的三种主要强化学习(RL)算法的发展历程:GRPO、Dr.GRPO 和 GSPO。 GRPO (Group Relative Policy Optimization, DeepSeek, 2024): 作为 PPO 的变体,GRPO 不再需要单独的价值模型(Critic),而是通过对同一问题生成一组(Group)输出,利用组内的相对奖励(均值和标准差归一化)来计算优势(Advantage)。 Dr.GRPO (GRPO Done Right, Sea AI Lab, 2025年3月): 认为 GRPO 存在偏差。GRPO 中的 1/∣oi∣ 长度归一化项和奖励的标准差归一化会导致模型在优化时产生偏差——具体来说,它倾向于让正确答案变短(鼓励简短),或者让错误答案变长(因为长序列的负面优势被长度项稀释了)。Dr.GRPO 通过移除目标函数中的 1/∣oi∣ 项和优势计算中的标准差(std)分母,来消除这种长度和优化偏差。 GSPO (Group Sequence Policy Optimization, Qwen, 2025年7月): GSPO 认为 GRPO 的 Token 级优化与通常是 Sequence 级(整段回答)的奖励信号不匹配。GSPO 引入了序列级的重要性比率(Sequence-level importance ratio,即所有 Token 比率的几何平均),并移除了原公式中对 Token 的求和。这种方法被认为在训练(特别是 MoE 模型)时更稳定且方差更小。 网闻录 三种主要强化学习(RL)算法的发展历程:GRPO、Dr.GRPO 和 GSPO