从 AlphaGo 到 LLM：强化学习的前世今生与大模型时代

摘要： 强化学习（Reinforcement Learning, RL）从上世纪 50 年代的早期构想，到 AlphaGo 的里程碑式突破，再到如今在大语言模型（LLM）中的全面渗透，走过了一条波澜壮阔的技术演进之路。本文回顾了 RL 的核心发展脉络，并重点聚焦 RL 如何与 LLM 结合——从 RLHF 到 PPO、DPO，再到 GRPO、BRPO 等最新算法，梳理其背后的技术逻辑、演进逻辑与前沿趋势。

一、强化学习：一段简史

1.1 萌芽与奠基（1950s–1980s）

强化学习的思想源头可以追溯到行为心理学中的操作性条件反射（Skinner, 1938）。20 世纪 50 年代，Arthur Samuel 在跳棋程序中提出了”强化学习”的雏形概念。1951 年，Homer Walker 在哈佛 Mark I 计算机上实现了世界上第一个强化学习代理。

真正的理论奠基来自 Richard Bellman 在 1957 年提出的动态规划和贝尔曼方程，它为强化学习提供了数学基础——将价值函数定义为即时奖励与未来折扣奖励之和。

1.2 策略梯度与理论完善（1990s）

90 年代是 RL 走向算法化的关键时期：

1989，Chris Watkins 提出了 Q-Learning，一种无需模型（model-free）的时序差分学习方法，通过更新 Q 表来学习最优动作价值函数。该论文随后在 Watkins & Barto（1989）中正式发表，奠定了无模型 RL 的基石。
1996 年，SARSA（State-Action-Reward-State-Action）算法由 McCallum 正式提出，与 Q-Learning 的区别在于它属于 on-policy 方法，学习的是实际执行策略的价值，而非理论最优策略的价值。
REINFORCE 算法由 Ronald Williams 于 1992 年正式提出，它是基于策略梯度（Policy Gradient）的蒙特卡洛方法，直接优化策略参数而非通过价值函数间接优化，为后来 LLM 中的偏好优化奠定了理论基础。

REINFORCE 的核心是策略梯度定理：对于策略参数 $\theta$，梯度为

$$\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot Q^{\pi_\theta}(s_t, a_t) \right]$$

在 LLM 语境中，$s_t$ 对应 prompt + 已生成的前缀 $x, y_{<t}$，$a_t$ 对应下一个 token $y_t$。这个公式告诉我们：如果某个 token 带来了高累计回报，就增加其概率；反之则降低。这与 DPO 中的对数概率比本质上是相通的——都是基于回报信号调整 token 概率。

这一阶段的 RL 主要应用于小型离散控制问题（如走迷宫、平衡杆），受限于计算能力和状态空间的爆炸性问题。

1.3 深度学习 × RL：突破临界点（2013–2016）

2013 年，DeepMind 发布了 DQN（Deep Q-Network），将深度神经网络与 Q-Learning 结合，首次实现了从原始像素输入直接学习到 Atari 游戏的玩法规则（Mnih et al., 2013）。这是 RL 历史上第一个真正的里程碑。

关键创新包括：

深度神经网络作为函数近似器，替代了传统的 Q 表
经验回放（Experience Replay）：将历史经验存储并随机采样，打破数据间的时序相关性
目标网络（Target Network）：固定目标 Q 值一段时间，提升训练稳定性

2016 年，DeepMind 在 Nature 上发表了 AlphaGo（Silver et al., 2016），通过结合蒙特卡洛树搜索（MCTS）与深度策略网络和价值网络，击败了围棋世界冠军李世石。AlphaGo 的成功证明了 RL 在超高复杂度博弈中的能力，也引发了全球范围内的 AI 热潮。

二、RL 与大语言模型：从 RLHF 到后 RLHF 时代

2.0 一句话类比：RL 对齐 LLM 到底在干什么？

如果用一个生活化的比喻来理解 RL 如何对齐 LLM：

预训练就像让一个学生读了整座图书馆的书，知识渊博但说话不着边际。
SFT（监督微调）就像让老师给他一本”标准答案手册”，教他”好的回答应该长什么样”。
RL 对齐就像考试——学生每次写完回答后，老师给他打分（奖励），他根据分数调整自己的写法，最终学会在老师期望的方向上优化。

RLHF、DPO、GRPO 等一系列算法，本质上都是在回答同一个问题：老师的”打分”应该怎么做，才能让学生学得好、学得快、学得稳？

2.1 为什么 LLM 需要 RL？

大语言模型（如 GPT、LLaMA）基于自回归的无监督预训练，擅长模仿训练数据的统计规律，但存在几个关键问题：

人类偏好对齐缺失：模型可能生成有害、偏见或不准确的回答
任务导向能力弱：在需要多步推理或遵循特定指令的场景下表现不佳
奖励信号缺失：预训练只有语言建模损失，没有关于”这个回答好不好”的反馈

RL 的引入，本质上是为 LLM 提供基于反馈的学习信号，让模型学会在人类期望的方向上优化输出。

2.2 RLHF：人类反馈强化学习（2022）

2022 年，OpenAI 在论文 “Training language models to follow instructions with human feedback” 中正式提出了 RLHF（Reinforcement Learning from Human Feedback），成为 LLM 对齐的标杆方法。

RLHF 分为三步：

步骤	内容	说明
SFT	监督微调	用人工标注的高质量对话数据微调 LLM
RM	奖励模型训练	让人类对同一 prompt 的不同回答进行排序，训练一个能给出评分的奖励模型
RL	强化学习优化	以预训练 LLM 为初始策略，用 PPO 算法根据奖励模型的反馈进行优化

核心公式：

$$\max_{\pi} \mathbb{E}_{x \sim D, y \sim \pi(\cdot|x)} [r(x,y)] - \beta \cdot D _{KL}(\pi(\cdot|x) | \pi _{ref}(\cdot|x))$$

其中 $r(x,y)$ 是奖励模型给出的分数，$\beta > 0$ 是超参数，控制对齐强度；$\beta \cdot D_{KL}$ 是 KL 散度惩罚项，防止优化后的策略 $\pi$ 偏离参考模型 $\pi_{ref}$ 太远。

PPO 的完整计算流程：

PPO（Proximal Policy Optimization，Schulman et al., 2017）是 RLHF 中实际使用的策略优化算法，其核心是裁剪代理目标（clipped surrogate objective）。具体步骤如下：

步骤 1 — 采样：对于每个 prompt $x$，从当前策略 $\pi_\theta$ 采样生成回答 $y$。自回归生成过程中，每一步的 token 序列为 $y = (y_1, y_2, \ldots, y_T)$，其概率为

$$\pi_\theta(y|x) = \prod_{t=1}^{T} \pi_\theta(y_t | x, y_{<t})$$

步骤 2 — 计算奖励：用训练好的奖励模型 $r_\phi(x, y)$ 给出生成 $y$ 的标量奖励 $r(x,y)$。同时计算 KL 散度惩罚项（单样本估计）：

$$d(x,y) = \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)} - \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)} - 1$$

这是 KL 散度 $D_{KL}(\pi_\theta(\cdot|x) | \pi_{ref}(\cdot|x))$ 在单样本 $y$ 上的无偏估计（满足 $d(x,y) \geq 0$ 且当 $\pi_\theta = \pi_{ref}$ 时等于 0）。综合奖励为：

$$r^{\text{combined}}(x, y) = r(x, y) - \beta \cdot d(x,y)$$

步骤 3 — 优势估计（GAE）：用价值网络 $V_\psi$ 估计优势函数。采用广义优势估计（GAE, Generalized Advantage Estimation，Schulman et al., 2015）：

$$\delta _t = r _t + \gamma \cdot V_\psi(s _{t+1}) - V _\psi(s _t)$$

$$A^{\text{GAE}(\gamma, \lambda)} _t = \sum _{l=0}^{\infty} (\gamma \lambda)^l \cdot \delta _{t+l}$$

其中 $\gamma \in [0, 1]$ 是折扣因子，$\lambda \in [0, 1]$ 是 GAE 平滑参数。GAE 在偏差和方差之间做权衡：$\lambda = 0$ 退化为单步优势估计（低方差、高偏差），$\lambda = 1$ 为蒙特卡洛优势估计（高方差、低偏差）。

步骤 4 — PPO 裁剪目标：设 $r_t(\theta) = \frac{\pi_\theta(y_t | x, y_{<t})}{\pi_{\theta_{\text{old}}}(y_t | x, y_{<t})}$ 为新旧策略的概率比。PPO 的裁剪目标为：

$$L^{\text{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \cdot A_t, ; \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \cdot A_t \right) \right]$$

其中 $\epsilon$ 是裁剪超参数（通常取 0.2）。当优势 $A_t > 0$ 时，裁剪上限防止策略更新过快；当 $A_t < 0$ 时，裁剪下限防止策略过度远离旧策略。

步骤 5 — 总损失：

$$\mathcal{L}(\theta) = \mathbb{E}_t \left[ -L^{\text{CLIP}}(\theta) - c_1 \cdot \mathcal{L}_{\text{VF}}(\theta) + c_2 \cdot S[\pi_\theta] (x) \right]$$

其中 $\mathcal{L} _{\text{VF}} = |r _t \cdot A _t - V _\psi(s _t)|^2$ 是价值函数的 MSE 损失（ $c_1$ 为权重系数），$S[\pi _\theta] (x) = \mathbb{E} _{y \sim \pi _\theta(\cdot|x)} [-\log \pi _\theta(y|x)]$ 是策略的熵（ $c _2$ 为权重系数，鼓励探索）， $c _1, c _2$ 是超参数。注意最小化损失等价于最大化 PPO 目标（因此在 $L^{\text{CLIP}}$ 前加负号）。

优点： 能显著改善模型的对齐质量和指令遵循能力。

痛点：

训练流程极长（三步串行，每步都要单独训练和评估）
PPO 算法在 LLM 上训练不稳定，需要精细调参（包括学习率、裁剪参数、价值网络超参数等）
奖励模型可能存在偏差（reward hacking / reward mis-specification）
需要额外维护价值网络（critic）和奖励模型（reward model），显存和计算开销大

2.3 从 RLHF 到 DPO：直接偏好优化（2023）

2023 年，Stanford 的 DPO（Direct Preference Optimization） 论文（Rafailov et al., 2023）提出了一个关键洞察：不需要显式的奖励模型和 PPO 训练。

DPO 的核心思想是将 RLHF 中的最优性条件反向求解出来，得到一个解析解形式的偏好优化目标。简单来说，给定一对回答 $(y_w, y_l)$（一个被偏好，一个被拒绝），DPO 直接最大化：

$$\mathcal{L} _{\text{DPO}}(\pi _\theta; \pi _{\text{ref}}) = -\mathbb{E} _{(x, y _w, y _l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi _\theta(y _w|x)}{\pi _{\text{ref}}(y _w|x)} - \beta \log \frac{\pi _\theta(y _l|x)}{\pi _{\text{ref}}(y _l|x)} \right) \right]$$

DPO 公式的推导逻辑：

DPO 的精妙之处在于从 RLHF 的优化目标反向求解。在 RLHF 的 KL 约束优化框架下，最优策略的解析解为：

$$\pi^*(y|x) = \frac{1}{Z(x)} \pi_{ref}(y|x) \exp\left(\frac{r^*(x,y)}{\beta}\right)$$

其中 $Z(x) = \sum_y \pi_{ref}(y|x) \exp\left(\frac{r^*(x,y)}{\beta}\right)$ 是归一化常数（配分函数）。反过来，最优奖励可以表示为：

$$r^*(x,y) = \beta \log \frac{\pi^*(y|x)}{\pi_{ref}(y|x)} + \beta \cdot \log Z(x)$$

注意到 $Z(x)$ 与 $y$ 无关，在偏好对比中会被消去。将 $r^*$ 代入 DPO 的偏好损失（即最大化偏好回答的奖励减去拒绝回答的奖励），就得到了上面的损失函数。

DPO 的完整计算过程：

输入：偏好对数据 $(x, y_w, y_l)$，其中 $y_w$ 是被偏好的回答，$y_l$ 是被拒绝的回答，数据集记为 $\mathcal{D}$
计算对数概率比：对每个偏好对，分别计算偏好回答和拒绝回答相对于参考模型的对数概率比：

$$\Delta(x, y_w, y_l) = \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}$$

其中自回归的对数概率为 $\log \pi_\theta(y|x) = \sum_{t=1}^{T} \log \pi_\theta(y_t | x, y_{<t})$，$T$ 为回答长度。
3. Sigmoid 映射与损失：将 $\beta \cdot \Delta$ 输入 sigmoid 函数，得到偏好概率：

$$\sigma(\beta \cdot \Delta) = \frac{1}{1 + \exp(-\beta \cdot \Delta)}$$

当 $\Delta > 0$ 时，说明偏好回答的对数概率比大于拒绝回答，$\sigma(\beta \cdot \Delta) > 0.5$，损失 $-\log \sigma(\beta \cdot \Delta)$ 较小；反之损失较大。
4. 梯度更新：

$$\nabla_\theta \mathcal{L}_{\text{DPO}} = -\beta \cdot \left(1 - \sigma(\beta \cdot \Delta)\right) \cdot \nabla_\theta \Delta$$

当 $\Delta$ 很小（模型难以区分偏好和拒绝）时，$1 - \sigma \approx 0.5$，梯度较大，推动模型加大区分；当 $\Delta$ 很大（模型已能很好地区分）时，$1 - \sigma \approx 0$，梯度趋近于零，自动停止更新。

意义： DPO 将三步流程压缩为一步（直接用偏好数据微调），训练更简单、更稳定，且效果与 RLHF 相当甚至更好。

DPO 引发了后续一系列偏好优化算法的爆发，以下逐一介绍其公式细节：

IPO：Identity Preference Optimization

IPO（Wang et al., 2023）的核心洞察是：DPO 损失本质上是希望 $\Delta = \log \frac{\pi_\theta(y_w|x)}{\pi_{ref}(y_w|x)} - \log \frac{\pi_\theta(y_l|x)}{\pi_{ref}(y_l|x)}$ 为正，而 DPO 用 sigmoid 将其映射到 (0,1)。IPO 直接对这个差值做平方损失：

$$\mathcal{L}_{\text{IPO}}(\theta) = \mathbb{E} \left[ \left( \frac{1}{2} - \beta \cdot \Delta(x, y_w, y_l) \right)^2 \right]$$

IPO 对标签噪声（即偏好标注错误的情况）比 DPO 更鲁棒，因为平方损失对极端值的敏感度低于交叉熵。

KTO：Kahneman-Tversky Optimization

KTO（Ethayarajh et al., 2024）基于前景理论（Prospect Theory），为每个回答分配一个”期望效用”而非依赖成对比较。给定一个目标偏好分数 $r_{\text{target}}$（通常取 0.5），KTO 的损失为：

$$\mathcal{L} _{\text{KTO}}(\theta) = \mathbb{E} _{(x,y,w) \sim \mathcal{D}} \left[ \begin{array}{l} w \cdot \max\left(0, -\log \sigma(\beta \cdot \log \frac{\pi _\theta(y|x)}{\pi _{ref}(y|x)} - r _{\text{target}})\right) \ + (1-w) \cdot \max\left(0, -\log \sigma(\beta \cdot \log \frac{\pi _{ref}(y|x)}{\pi _\theta(y|x)} + r _{\text{target}})\right) \end{array} \right]$$

其中 $w \in {0, 1}$ 表示该回答是否被偏好。KTO 不需要成对的偏好数据，每个样本独立优化。

ORPO：Odds-Ratio Preference Optimization

ORPO 将 SFT 的交叉熵损失和 DPO 的偏好损失合并为单步：

$$\mathcal{L} _{\text{ORPO}}(\theta) = -\mathbb{E} \left[ \log \sigma\left( \beta \cdot \log \frac{\pi _\theta(y _w|x)}{\pi _\theta(y _l|x)} \cdot \frac{\pi _{ref}(y _l|x)}{\pi _{ref}(y _w|x)} \right) \right] - \lambda \cdot \mathcal{L} _{\text{SFT}}(\theta)$$

其中第二项是标准 SFT 损失（最大化偏好回答的似然，即负对数似然）。ORPO 将偏好比值 $\frac{\pi_\theta(y_w|x)}{\pi_\theta(y_l|x)}$ 与参考模型的比值 $\frac{\pi_{ref}(y_l|x)}{\pi_{ref}(y_w|x)}$ 做对比，本质上是在 SFT 的同时做偏好优化。

SimPO：Simple Preference Optimization

SimPO（Tian et al., 2024）的洞察是：不需要 KL 散度到参考模型，直接用序列的 log-prob 差作为奖励信号：

$$\mathcal{L}_{\text{SimPO}}(\theta) = -\mathbb{E} \left[ \log \sigma\left( \frac{\beta}{|y_w|} \log \pi_\theta(y_w|x) - \frac{\beta}{|y_l|} \log \pi_\theta(y_l|x) - \gamma \right) \right]$$

其中 $|y_w|$、$|y_l|$ 分别是回答 $y_w$、$y_l$ 的 token 数（即序列长度），$\gamma$ 是目标 margin 超参数。SimPO 通过长度归一化消除了长度偏好问题，且不需要参考模型 $\pi_{ref}$。

CPO：Contrastive Preference Optimization

CPO 关注正负样本之间的相对距离，使用对比式损失（InfoNCE 风格）。设对于每个 prompt $x$，有一个偏好回答 $y_w$ 和 $K$ 个拒绝回答 $y_1, \ldots, y_K$。定义每个回答的”偏好分数”为 $s(y) = \beta \cdot \log \frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}$，则 CPO 损失为：

$$\mathcal{L}_{\text{CPO}}(\theta) = -\mathbb{E} \left[ \log \frac{\exp(s(y_w))}{\sum_{j=0}^{K} \exp(s(y_j))} \right]$$

其中 $y_0 = y_w$，$y_1, \ldots, y_K$ 为拒绝回答。CPO 将偏好优化视为一个 $K+1$ 类的对比分类问题（InfoNCE 风格）。

这些算法的共同特点是去掉了 PPO 训练环节，将 RL 问题转化为一个监督学习问题。

2.4 GRPO：组相对策略优化（2024）

2024 年 11 月，来自 DeepSeek 的 GRPO（Group Relative Policy Optimization） 论文（DeepSeek-AI et al., 2024）引起了广泛关注。GRPO 的核心创新在于用组内相对排名替代了价值网络（critic）。

GRPO 的关键设计：

去掉 Critic 模型：传统 PPO 需要单独训练一个价值函数模型来估计状态价值。GRPO 通过让 LLM 为同一个 prompt 生成多个回答（一个 group），然后用组内的相对奖励（group reward）来计算优势函数（advantage）。
组内归一化：对于一个 prompt 生成的 $G$ 个回答，先计算每个回答的奖励 $r_1, r_2, \ldots, r_G$，然后做组内归一化：

$$\hat{A} _i = \frac{r _i - \text{mean}({r _j} _{j=1}^G)}{\text{std}({r _j} _{j=1}^G)}$$

简化训练流程：不需要额外的奖励模型和价值模型，只需要一个基础模型就能完成整个 RL 训练。

GRPO 的完整计算过程：

设对于 $N$ 个 prompt ${x_1, x_2, \ldots, x_N}$，当前策略 $\pi_\theta$ 为每个 prompt 生成 $G$ 个回答。

步骤 1 — 组内采样：对每个 prompt $x_i$，从 $\pi_\theta$ 采样 $G$ 个回答：

$${y_{i,1}, y_{i,2}, \ldots, y_{i,G}} \sim \pi_\theta(\cdot|x_i)$$

步骤 2 — 计算每个回答的奖励：

对于可验证任务（数学、代码）：使用精确奖励，正确答案为 1，错误为 0：

$$r_{i,j} = \mathbb{I}(\text{verify}(y_{i,j}) = \text{true})$$

对于不可验证任务：使用奖励模型 $r_\phi(x_i, y_{i,j})$ 给出标量评分。

步骤 3 — 组内优势估计：计算组内奖励的均值和标准差，然后归一化得到优势：

$$\hat{A} _{i,j} = \frac{r _{i,j} - \mu _i}{\sigma _i + \epsilon}$$

其中 $\mu_i = \frac{1}{G}\sum_{k=1}^{G} r_{i,k}$，$\sigma_i = \sqrt{\frac{1}{G}\sum_{k=1}^{G}(r_{i,k} - \mu_i)^2 + \epsilon}$，$\epsilon$ 为数值稳定性项（通常取 $10^{-8}$）。

步骤 4 — GRPO 裁剪目标：与 PPO 类似，使用裁剪策略目标，但优势函数用组内归一化的 $\hat{A}_{i,j}$ 替代：

$$L^{\text{GRPO}}(\theta) = \frac{1}{NG} \sum _{i=1}^{N} \sum _{j=1}^{G} \min\left( \frac{\pi _\theta(y _{i,j}|x _i)}{\pi _{\theta _{\text{old}}}(y _{i,j}|x _i)} \cdot \hat{A} _{i,j}, ; \text{clip}\left(\frac{\pi _\theta(y _{i,j}|x _i)}{\pi _{\theta _{\text{old}}}(y _{i,j}|x _i)}, 1-\epsilon, 1+\epsilon\right) \cdot \hat{A} _{i,j} \right)$$

步骤 5 — KL 惩罚项：为防止策略偏离参考模型太远，加入 KL 惩罚：

$$\mathcal{L} _{\text{GRPO}}(\theta) = L^{\text{GRPO}}(\theta) + \lambda \cdot \frac{1}{NG} \sum _{i=1}^{N} \sum _{j=1}^{G} D _{KL}(\pi _\theta(\cdot|x _i) | \pi _{ref}(\cdot|x _i))$$

步骤 6 — 梯度更新：对总损失进行反向传播更新策略参数 $\theta$。

与 PPO 的关键差异：

对比项	PPO (RLHF)	GRPO
优势估计	需要价值网络 $V_\psi$ 用 GAE 计算	组内奖励归一化，无需价值网络
奖励模型	需要单独训练的 $r_\phi$	可省略（可验证任务用精确奖励）或复用基础模型
Critic 模型	需要，额外参数开销	不需要
采样策略	每个 prompt 采样 1 个回答	每个 prompt 采样 $G$ 个回答（$G$ 通常为 4–8）

GRPO 的优势：

训练效率更高：省去了奖励模型训练和 PPO 中 critic 的更新
显存占用更低：不需要存储 critic 模型的参数
实现更简洁：整个流程可以集成在一个训练循环中
组内相对比较更鲁棒：组内归一化天然消除了不同 prompt 之间奖励尺度的差异

2.5 BRPO：引导式相对策略优化（2025）

2025 年 6 月，Writing-Zero 论文（Jia et al., arXiv: 2506.00103）提出了 BRPO（Bootstrapped Relative Policy Optimization），专门解决 RLVR 在非可验证任务（如创意写作、开放对话）中的困境。

背景问题： RLVR 在数学推理、代码生成等可验证任务上取得了巨大成功，但在创意写作等主观评价任务上，传统的标量奖励模型（scalar reward model）存在明显缺陷：泛化能力差、容易 reward hacking（过度解释、长度偏好等）。

BRPO 的核心设计：

生成式奖励模型（GenRM）： 不使用标量评分，而是训练一个 pair-wise 的生成式奖励模型，基于写作原则进行自我批判式评估（self-principled critique），将主观判断转化为可验证的奖励信号。
Bootstrapped 引导机制： BRPO 在训练过程中，从同组 rollout 中动态采样一个引导响应（bootstrapped response）作为临时参考，实现动态、无参考的成对比较（dynamic reference-free pairwise comparison）。这与 GRPO 的组内归一化思想一脉相承，但引入了 bootstrapped 参考的概念。

BRPO 的关键创新：

无需监督微调（SFT-free）： 直接在预训练模型上训练写作能力
强抗 reward hacking： 通过 pair-wise 比较而非标量评分，避免模型迎合单一奖励维度
统一 RLVR 范式： 尝试将基于规则、基于参考和基于无参考的奖励建模统一到 RLVR 框架下

BRPO 的完整计算过程：

设对于 $N$ 个 prompt ${x_1, x_2, \ldots, x_N}$，当前策略 $\pi_\theta$ 为每个 prompt 生成 $G$ 个回答 ${y_1, y_2, \ldots, y_G}$。

步骤 1 — 组内采样：同 GRPO，对每个 prompt $x_i$ 采样 $G$ 个回答。

步骤 2 — 生成式奖励（GenRM）评估：训练一个 pair-wise 的生成式奖励模型 $M_{\text{GenRM}}$，对每对回答 $(y_a, y_b)$ 进行自我批判式评估。模型基于写作原则（如结构、连贯性、创意性）输出比较结果而非标量评分：

$$\text{critique} _{a \to b} = M _{\text{GenRM}}(x, y _a, y _b)$$

该 critique 是一个自然语言文本，解释为什么 $y_a$ 优于 $y_b$（或反之）。这种 pair-wise 比较避免了标量评分的单一维度问题。

步骤 3 — Bootstrapped 引导采样：从同组 rollout 中动态采样一个引导响应 $y_{\text{boot}}$ 作为临时参考。具体而言，从组内 ${y_1, \ldots, y_G}$ 中按概率分布 $p_j \propto \exp(\text{critique}(y_j))$ 采样：

$$y_{\text{boot}} \sim p_{\text{boot}} = \text{Softmax}\left(\frac{\text{critique}(y_1), \ldots, \text{critique}(y_G)}{\tau}\right)$$

其中 $\tau$ 是温度参数，控制采样的”锐度”。

步骤 4 — 动态参考比较：将当前回答 $y_j$ 与 bootstrapped 参考 $y_{\text{boot}}$ 进行成对比较，得到成对优势：

$$\hat{A} _{i,j} = \text{critique} _{y _{i,j} \to y _{i,\text{boot}}} - \text{critique} _{y _{i,\text{boot}} \to y _{i,j}}$$

这种对称的成对比较消除了单个 critic 的主观偏差。

步骤 5 — BRPO 策略更新：与 GRPO 类似，使用裁剪策略目标，但优势函数用 bootstrapped 成对比较的 $\hat{A}_{i,j}$ 替代：

$$\mathcal{L} _{\text{BRPO}}(\theta) = L^{\text{clip}}(\theta; \hat{A}) + \lambda \cdot D _{KL}(\pi _{ref} | \pi _\theta)$$

与 GRPO 的核心差异：

对比项	GRPO	BRPO
奖励形式	标量奖励 $r \in \mathbb{R}$	生成式 critique 文本
优势估计	组内归一化 $\frac{r_i - \mu}{\sigma}$	bootstrapped 成对比较
参考模型	不需要（除 KL 惩罚项）	动态 bootstrapped 采样作为参考
适用任务	可验证任务（数学、代码）	非可验证任务（写作、对话）
SFT 依赖	通常需要 SFT 初始化	SFT-free，可直接从预训练模型开始

BRPO 与 GRPO 的关系：
BRPO 和 GRPO 都属于「去 critic」的轻量级偏好优化路线，但侧重点不同：GRPO 侧重于推理类可验证任务中的高效训练，BRPO 侧重于主观任务中如何用生成式奖励和 bootstrapped 参考来克服奖励模型的局限性。两者在技术思路上有相通之处（组内比较、动态参考），可以看作是同一方向上的不同分支。

2.6 GRPO 的变体与延伸（2024–2025）

GRPO 提出后，迅速催生了多个改进版本。

算法	全称	改进点
GRPO	Group Relative Policy Optimization	组内相对优势，去 critic
Dr. GRPO	Diverse Reward GRPO	引入多样性奖励，鼓励生成多样化的高质量回答
RLVR	Reinforcement Learning with Verifiable Rewards	针对数学推理，使用可验证的正确答案作为奖励信号
RLOO	Reinforcement Learning with Leave-One-Out	改进 GRPO 的优势估计，用 leave-one-out 方式计算
BRPO	Bootstrapped Relative Policy Optimization	引导式相对策略优化，用于非可验证任务（Writing-Zero, 2025）
PPO-Ref	PPO with Reference Model	保留 PPO 框架但优化了参考模型的策略
DPO++	DPO Enhanced	在 DPO 基础上引入更多负样本和对比机制
REINFORCE++	—	将 REINFORCE 算法引入 LLM 对齐，探索梯度估计的改进
SLiC / SLiF	Sequence Likelihood Calibration / Finetuning	通过校准序列似然来对齐偏好

RLOO 的公式细节：

RLOO（Zhao et al., 2024）的核心改进是替代 GRPO 的组内归一化优势估计。在 GRPO 中，$\hat{A} _{i,j} = \frac{r _{i,j} - \mu _i}{\sigma _i}$ 中每个样本 $j$ 都参与了均值和方差的计算，因此优势估计中混入了自身信息。RLOO 采用 leave-one-out 方式，将样本 $j$ 自身排除在统计量计算之外：

$$\hat{A}^{\text{RLOO}} _{i,j} = \frac{r _{i,j} - \frac{1}{G-1}\sum _{k \neq j} r _{i,k}}{\sqrt{\frac{1}{G-1}\sum _{k \neq j}(r _{i,k} - \bar{r} _{i}^{\neg j})^2 + \epsilon}}$$

其中 $\bar{r} _{i}^{\neg j} = \frac{1}{G-1}\sum _{k \neq j} r _{i,k}$ 是排除样本 $j$ 后的组内均值。RLOO 的优势估计更”无偏”，因为每个样本的优势只依赖其他样本的信息。

Dr. GRPO 的核心思想：

Dr. GRPO 在 GRPO 的奖励中加入多样性项。除了原始奖励 $r_{i,j}$，额外计算组内回答的多样性惩罚/奖励：

$$r^{\text{Dr}} _{i,j} = r _{i,j} + \lambda _{\text{div}} \cdot \frac{1}{G-1} \sum _{k \neq j} \text{diversity}(y _{i,j}, y _{i,k})$$

其中 $\text{diversity}(y_a, y_b)$ 可以基于 NLSD（Normalized Longest Common Substring Distance）等文本相似度指标计算。这鼓励模型在同一 prompt 下探索多样化的推理路径，避免多回答退化到同一个模式。

此外还有一些值得关注的方向：BPO（Budget Preference Optimization），在偏好优化中引入计算预算约束，在推理质量和效率之间做权衡；以及 RLAIF（Reinforcement Learning from AI Feedback），用 AI 生成的反馈替代人类标注，大幅降低对齐成本。

2.7 当前前沿：RL for 大模型科研

2024 年底到 2025 年，RL 在 LLM 中的应用进入了一个新阶段。几个关键趋势：

（1）RL for Science（科学发现）

研究人员正在用 RL 驱动 LLM 在科学发现中扮演主动角色——不是让 LLM 回答问题，而是让 LLM 作为科研代理，通过”提出假设 → 设计实验 → 分析结果 → 修正假设”的闭环，自主推进科学研究。

（2）推理能力的 RL 增强

DeepSeek-R1 和 QwQ 等模型的突破性成果，很大程度上归功于 RL 对推理能力的增强。通过 GRPO 等算法，让模型在数学推理、代码生成等任务上学会”思考过程”的优化，而不仅仅是”答案的正确性”。

（3）多智能体 RL

将 LLM 作为多智能体系统中的一个 agent，通过 RL 让多个模型之间协作、竞争、协商，完成更复杂的任务。这在自动化测试、软件工程和仿真系统中展现出巨大潜力。

（4）RL 与 RAG 的结合

检索增强生成（RAG）与 RL 的结合——用 RL 优化检索策略、重排算法和最终的答案生成，使系统在信息检索和生成之间形成端到端的优化闭环。

三、技术对比：主流偏好优化算法一览

偏好优化算法的设计在多个维度上存在权衡。下表从算法所需的外部模型、训练范式、数据需求和适用场景四个维度进行对比，帮助读者理解不同算法的定位和取舍。

算法	需训练奖励模型？	需训练价值模型？	优化范式	训练步骤	数据需求	适用场景
RLHF (PPO)	✅ 需要	✅ 需要	策略梯度	3 步（SFT→RM→RL）	偏好排序（多选项排序）	通用对话、指令遵循，需要精细对齐的场景
DPO	❌	❌	直接偏好优化	1 步（SFT 后微调）	偏好对（$y_w, y_l$）	通用偏好对齐，标注数据充足
IPO	❌	❌	平方损失偏好优化	1 步（SFT 后微调）	偏好对	偏好对含标签噪声的场景
KTO	❌	❌	直接偏好优化	1 步（SFT 后微调）	独立样本 + 效用标签（无需成对）	无偏好对标注、仅有独立评分的场景
ORPO	❌	❌	SFT + 偏好联合优化	1 步（端到端）	偏好对	需要兼顾生成质量与偏好对齐
SimPO	❌	❌	log-prob 差直接优化	1 步（SFT 后微调）	偏好对	需消除长度偏好的场景
CPO	❌	❌	对比式偏好优化	1 步（SFT 后微调）	偏好对 + 多个负样本	多负样本对比场景
GRPO	❌	❌	PPO 裁剪策略（去 critic）	1 步（可直接预训练后训练）	无需偏好标注，仅需可验证奖励	可验证任务（数学推理、代码生成）
RLOO	❌	❌	PPO 裁剪策略（去 critic）	1 步	无需偏好标注，仅需可验证奖励	需无偏优势估计的可验证任务
BRPO	❌	❌	PPO 裁剪策略（去 critic）	1 步（SFT-free）	无需偏好标注，仅需 GenRM 成对比较	非可验证任务（写作、对话）

维度说明：

需训练奖励模型：算法是否在训练过程中需要单独训练一个奖励模型（Reward Model）

需训练价值模型：算法是否需要单独训练一个价值网络（Critic / Value Network）

优化范式：算法采用的优化策略类型

训练步骤：从预训练/SFT 到最终模型需要经历的训练阶段数

数据需求：算法训练所需的标注数据类型（偏好标注 vs 可验证奖励 vs 独立评分）

适用场景：算法最适合的任务类型

总体而言，RLHF (PPO) 在通用对齐任务上效果最成熟但复杂度最高；DPO 系列（DPO / IPO / KTO / ORPO / SimPO / CPO）通过简化训练流程降低了门槛，但依赖偏好标注数据；RL 衍生系列（GRPO / RLOO / BRPO）则完全免除了偏好标注需求，通过组内比较或生成式奖励实现对齐，但各有特定的适用场景。

四、总结与展望

强化学习从 AlphaGo 到 GRPO 的演进，本质上反映了 AI 研究的一个趋势：**从”用复杂系统解决复杂问题”走向”用更简洁的机制实现相同甚至更好的效果”**。

RLHF 用三步流程证明了 LLM 对齐的可行性，DPO 用一步优化证明了它更简洁，而 GRPO 进一步去掉了价值模型，让 RL 训练真正变得轻量化和高效化。

展望未来，随着 RL 技术的持续演进，我们可能会看到：

RL 成为 LLM 训练的标配环节，如同预训练和 SFT 一样自然
RL 与 Agent 框架深度融合，让大模型具备自主决策和行动能力
RL for Science 的范式创新，推动科学发现的自动化和加速化
多模态 RL，在视觉、语音、文本等多模态场景下实现对齐和优化

从 AlphaGo 的棋盘到 LLM 的文本，从离散的动作空间到连续的语义空间，强化学习正在重新定义 AI 的能力边界。而这一切，才刚刚开始。

参考文献

Mnih, V. et al. “Human-level control through deep reinforcement learning.” Nature 518, 529–533 (2015).
Silver, D. et al. “Mastering the game of Go with deep neural networks and tree search.” Nature 529, 484–489 (2016).
Ouyang, L. et al. “Training language models to follow instructions with human feedback.” NeurIPS 2022.
Rafailov, R. et al. “Direct preference optimization: Your language model is secretly a reward model.” NeurIPS 2023.
DeepSeek-AI et al. “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL.” 2024.（GRPO 论文）
Jia, R. et al. “Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards.” arXiv:2506.00103, 2025.（BRPO 论文）
Schulman, J. et al. “Proximal Policy Optimization Algorithms.” arXiv:1707.06347, 2017.
Schulman, J. et al. “High-Dimensional Continuous Control Using Generalized Advantage Estimation.” arXiv:1506.02438, 2015.
Wang, T. et al. “IPO: Exit the Saddle — An Exact Solution to the Logistic Regression Preference Learning Problem.” NeurIPS 2023.
Ethayarajh, K. et al. “KTO: Model Alignment as Prospect Theoretic Optimization.” arXiv:2402.01306, 2024.
Tian, Y. et al. “SimPO: Simple Preference Optimization with a Reference-Free Reward.” NeurIPS 2024.
Zhao, H. et al. “RLOO: Reinforcement Learning with Leave-One-Out Advantage Estimation.” arXiv:2412.18899, 2024.
Williams, R. J. “Simple statistical gradient-following algorithms for connectionist reinforcement learning.” Machine Learning 8(3), 229–256 (1992).
Watkins, C. J. C. H. & Barto, A. G. “Q-learning.” Machine Learning 8(3–4), 279–292 (1992).

本文基于公开文献整理，内容截至 2026 年 6 月。