Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命
论文标题: Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training
作者: Tianle Xia, Ming Xu, Lingxiang Hu, et al.机构: 腾讯(Tencent)
发表时间: 2026年2月
论文链接: arXiv:2602.22576
一句话总结: Search-P1 提出了一种"路径中心"的奖励塑形框架,通过双轨路径评分和软性结果打分,让强化学习训练的搜索代理不再只看最终答案对不对,还关注中间推理路径好不好,在7B模型上比基线Search-R1平均准确率提升7.7%。
1. 为什么需要这篇论文?——"结果导向"训练的致命缺陷
1.1 Agentic RAG 的崛起与困境
检索增强生成(RAG)已经成为解决大语言模型(LLM)幻觉问题的标配方案。但传统 RAG 是一个被动的"一次性检索"流程:用户提问 → 检索文档 → 生成答案。这在简单问题上够用,但面对需要多跳推理的复杂问题(比如"《水浒传》中宋江最终被谁用什么方式害死的?"),一次检索往往获取不到足够信息。
于是 Agentic RAG 应运而生——让 LLM 自主决定何时搜索、搜索什么、如何组合多次搜索结果来回答问题。这就好比从"帮你查一次字典"升级为"帮你做一整个研究项目"。
最近,UIUC 的 Search-R1 开创性地将强化学习(RL)引入 Agentic RAG 训练:模型通过不断试错,学会自主生成搜索查询并推理。Search-R1 取得了显著效果,在多个问答基准上平均提升26%。
但 Search-R1 有一个根本性问题:它只看最终答案对不对。
1.2 只看结果的代价
想象你是一位数学老师,批改学生的试卷。Search-R1 的方式是:答案对了给满分,答案错了给零分。完全不看解题过程。
这种"唯结果论"带来三个严重问题:
第一,"蒙对"和"真会"得到同样的奖励。 一个学生胡乱推理但蒙对了答案,和一个步骤清晰推导正确的学生,得到完全相同的反馈。模型无法区分好的推理路径和碰巧正确的路径。
第二,答错的样本完全浪费了。 在 RL 训练中,大量样本的最终答案是错的。在稀疏的结果奖励下,这些样本的奖励全是零,对梯度更新没有任何贡献。这就像考试不及格的学生直接被开除,而不是帮他分析哪些步骤做对了、哪些做错了。
第三,训练不稳定。 稀疏奖励信号导致策略更新方差大,训练容易陷入震荡。模型可能时而表现好、时而崩溃,像一个情绪不稳定的学生。
1.3 Search-P1 的核心思路
Search-P1 的名字里那个"P"代表"Path"(路径),核心思想非常直觉:
不仅评价你答对了没有,还评价你的推理路径好不好。
这就像一位优秀的数学老师:即使学生答错了,也会看解题过程——"你的思路是对的,只是最后计算出错了,加3分鼓励";即使学生答对了但过程混乱,也会指出"答案对了,但解题路径太绕了,可以优化"。
2. 方法全景:Search-P1 如何工作
2.1 整体架构
图1:Search-P1 框架的整体架构。包含四个核心模块:(1) 输入与策略更新,(2) 轨迹生成,(3) 参考计划生成,(4) 双轨路径评分。
如图1所示,Search-P1 的训练流程可以分为四个步骤:
- 输入问题,策略模型 \(\pi_\theta\) 生成多条推理轨迹
- 轨迹生成:每条轨迹包含 Planner(规划)→ Search(搜索)→ Think(思考)→ Answer(回答)的完整流程
- 参考计划生成:通过拒绝采样和 LLM 投票,生成高质量的参考推理计划
- 双轨路径评分:从自一致性和参考对齐两个维度评估推理路径质量
最终的总奖励公式为:
其中 \(R_{path}\) 是路径奖励,\(R_{outcome}\) 是(软性的)结果奖励,\(R_{format}\) 是格式奖励。三个权重分别控制不同信号的影响力。
2.2 轨迹结构设计
Search-P1 为模型的推理过程设计了一套结构化的轨迹模板:
其中: - \(p\) 是规划器(Planner)输出——模型一开始就要先"想好要做什么" - \(r_i\) 是第 \(i\) 步的推理(Think) - \(a_i\) 是第 \(i\) 步的动作(Search query) - \(o_i\) 是检索返回的文档片段 - \(r_{final}\) 是最终推理 - \(\hat{a}\) 是最终答案
这个设计的关键创新在于显式的 Planner。在 Search-R1 中,模型直接就开始搜索,没有明确的规划步骤。而 Search-P1 要求模型先输出一个计划("我打算分几步解决这个问题,每一步搜索什么"),然后再执行。
这就像做一道复杂的菜:有经验的厨师会先在脑子里过一遍步骤——备料、起锅、翻炒、调味、出锅;而新手厨师往往走一步看一步,炒到一半发现盐忘了拿。
3. 核心技术:双轨路径评分
这是 Search-P1 最核心的贡献。路径评分从两个独立的视角评估推理质量,然后取其中较好的那个。
3.1 Track A:自一致性评分(Self-Consistency)
自一致性回答一个简单的问题:模型是否按照自己制定的计划执行了?
计算公式:
其中: - \(r_{planner}\) 是一个二值指标——如果模型成功输出了合法的 Planner,则为1,否则为0 - \(n_{plan}\) 是计划中的步骤数 - \(n_{exec}^{self}\) 是实际执行的动作中与计划步骤匹配的数量 - \(n_{actions}\) 是实际执行的总动作数
这个公式的设计相当精巧。它同时考虑了两个方面:
计划覆盖率 \(\frac{n_{exec}^{self}}{n_{plan}}\):你计划做5件事,实际做了3件与计划一致的,覆盖率60%。惩罚"光说不练"。
行动精确率 \(\frac{n_{exec}^{self}}{n_{actions}}\):你实际做了6件事,其中3件与计划一致,精确率50%。惩罚"做了很多计划外的事"。
打个比方:你周末计划"上午健身、下午读书、晚上做饭"。如果你上午确实去健身了,下午却刷了半天手机,晚上做了饭但又多加了一个"逛淘宝"——那你的自一致性评分就不会太高,因为计划覆盖率只有2/3,行动精确率只有2/4。
3.2 Track B:参考对齐评分(Reference-Alignment)
参考对齐评分回答另一个问题:模型的行为是否符合专家认为应该做的事?
计算公式:
其中: - \(\mathcal{R}_{ref}\) 是参考计划中的步骤集合 - \(n_{covered}\) 是模型实际执行的动作中与参考计划步骤匹配的数量
结构与 Track A 类似,但参照标准从"自己的计划"变成了"专家的参考计划"。
3.3 为什么需要双轨?
两条轨道的存在是为了应对一个现实问题:好的推理路径不止一种。
如果只有 Track B(参考对齐),那些找到了参考计划之外的有效路径的模型会被不公正地低评。就像一道数学题,标准答案用的是代数法,但学生用几何法也解出来了——按照参考答案评分会给低分,但按照自一致性(学生自己的几何思路是否贯彻到底)评分就能给高分。
最终的路径奖励取两条轨道的最大值:
这样设计既鼓励模型遵循已知的好路径,也不惩罚合理的创新路径。
4. 软性结果评分:让失败也有价值
4.1 传统方式的浪费
在 Search-R1 中,结果奖励是二值的:答对了得1分,答错了得0分。这意味着,如果一个训练批次中80%的样本答错了,这80%的样本对训练几乎没有贡献——它们的奖励全是0,梯度更新信号极弱。
这在训练早期尤其严重,因为模型刚开始学搜索时,大部分答案都是错的。
4.2 Search-P1 的软性评分
Search-P1 引入了软性结果评分:
当答案正确时:\(R_{outcome} = 1.0\)
当答案错误时:\(R_{outcome} = \alpha \cdot r_{acc} + (1-\alpha) \cdot r_{reason}\)
其中 \(r_{acc} = 0\)(答案确实错了),\(r_{reason}\) 衡量推理质量(即使答错了,推理过程可能有价值),\(\alpha = 0.8\)。
也就是说,即使最终答案错了,如果推理过程中有合理的搜索和分析,模型也能获得一个小的正奖励(上限约0.2)。
这就像体育比赛中的"技术分"——花样滑冰选手即使摔倒了(答错了),之前的高难度动作(好的推理过程)依然可以得分。不会因为最后一刻的失误就全盘否定之前的努力。
4.3 效果验证
图2:软性结果评分在不同数据集上的效果对比。蓝色为使用软性评分,橙色为不使用。
图2展示了软性结果评分的效果。最显著的提升出现在 AD-QA(腾讯内部的广告领域问答数据集)上,从约77%提升到约86%,增幅接近9个百分点。这说明在高难度、多失败样本的场景下,软性评分的价值更大——因为失败样本更多,能从中挖掘的训练信号也更多。
5. 参考计划生成:低成本获取高质量"教学参考"
5.1 为什么需要参考计划?
Track B 的参考对齐评分需要一个"专家参考计划"作为对照。但哪里来的专家计划?让人类标注成本太高。
Search-P1 提出了一种巧妙的自动化方案:拒绝采样 + LLM 投票。
5.2 生成流程
- 拒绝采样(Rejection Sampling):对同一个问题,用模型生成 \(N\) 条完整的推理轨迹(论文中 \(N=64\)),筛选出最终答案正确的轨迹
- LLM 投票(LLM Voting):用一个强大的 LLM 对正确轨迹的推理步骤进行比较和投票,提取出"共识步骤"——多条正确轨迹中反复出现的关键推理步骤
- 形成参考计划 \(P_{ref}\):这些共识步骤就构成了参考计划
这个设计的巧妙之处在于:它不依赖单条轨迹的质量,而是通过多条轨迹的交叉验证来提取稳健的推理模式。就像做科学实验——单次实验结果可能有偶然性,但如果重复64次实验中有30次都走了相似的路径,那这个路径大概率就是对的。
而且这个过程是离线完成的,只在训练前执行一次,不增加训练时的计算负担。
6. 格式奖励:细节中的工程智慧
6.1 为什么格式也需要奖励?
Agentic RAG 要求模型输出结构化的文本——必须有 <planner> 标签、<search> 标签、<think> 标签等。如果模型的输出格式不对,后续的解析和评分都无法进行。
6.2 严格格式 vs 软性格式
Search-P1 对比了两种格式奖励设计:
严格格式奖励:格式完全正确得1分,任何不合格得0分。
软性格式奖励(Buffer-based):设定一个缓冲期(论文中为前20%的训练步数),在缓冲期内格式奖励恒为1(不惩罚格式错误),缓冲期结束后切换到严格模式。
图3:不同格式奖励设计下的训练动态。(a) 准确率变化,(b) 奖励变化。蓝色:软性格式,绿色:严格格式,红色:无格式奖励。
图3的结果很能说明问题: - 软性格式(蓝色)在准确率上最终达到约40%,显著优于另外两种 - 严格格式(绿色)在训练早期因为格式惩罚太重,模型不敢探索,准确率停滞在约30% - 无格式奖励(红色)则导致模型输出越来越混乱,也停滞在约30%
这背后的道理很直觉:训练初期,模型还在学习基本的搜索和推理能力,此时如果因为格式不完美就给重罚,模型会倾向于输出简短、安全但无用的回答。给一个"试错期",让模型先专注于学会搜索和推理,格式问题后面再收紧。
这就像教小孩写作文——一开始不要纠结字迹工整不工整,先让他敢写、多写,等表达能力上来了再要求书写规范。
7. 训练细节与RL算法
7.1 GRPO:无需评论家的策略优化
Search-P1 采用 DeepSeek 提出的 GRPO(Group Relative Policy Optimization) 算法进行训练。GRPO 的核心优势在于:它不需要额外训练一个"评论家模型"(Critic),而是通过组内相对比较来计算优势值。
具体来说,对同一个问题生成 \(G\) 个轨迹(论文中 \(G=16\)),计算每个轨迹的奖励后,在组内做标准化:
然后用 PPO 风格的 clipping 来更新策略:
这里 \(\epsilon\) 是 clipping 参数,\(\beta\) 是 KL 散度惩罚系数(论文中 \(\beta=0.001\))。
GRPO 的组内相对比较天然适合 Search-P1 的场景:同一问题的多条轨迹中,有的答对了、有的答错了、有的路径好、有的路径差——组内比较让好的轨迹获得正优势、差的获得负优势,形成清晰的学习信号。
7.2 训练配置
| 配置项 | 值 |
|---|---|
| 基座模型 | Qwen2.5-7B-Instruct / Qwen2.5-3B-Instruct |
| 检索器 | E5 |
| 知识库 | 2018年Wikipedia |
| GPU | 8 × NVIDIA H20 |
| 并行策略 | FSDP(Fully Sharded Data Parallel) |
| 学习率 | \(1 \times 10^{-6}\),Warm-up 比例 0.1 |
| 总批大小 | 512 |
| 采样数(每问题) | 7B: 16条轨迹,3B: 32条轨迹 |
| 采样参数 | 温度 \(\tau=0.6\),Top-k=20,Top-p=0.95 |
| 最大上下文长度 | 8192 tokens |
| KL 惩罚 \(\beta\) | 0.001 |
| 最大搜索轮次 | 5 |
| 检索文档数 | 3(Top-3) |
| 格式奖励权重 \(\lambda_f\) | 0.1 |
| 路径奖励权重 \(\lambda_p\) | 0.3 |
| 结果奖励权重 \(\lambda_a\) | 0.6 |
8. 实验结果:全面碾压
8.1 主要结果
图4:Search-P1(蓝色填充)与各基线方法在8个基准上的性能雷达图。(a) Qwen2.5-7B,(b) Qwen2.5-3B。
下表展示了 Search-P1 在 7B 和 3B 模型上的完整实验结果:
Qwen2.5-7B-Instruct 结果:
| 方法 | NQ | TriviaQA | PopQA | HotpotQA | 2Wiki | Musique | Bamboogle | AD-QA | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Direct | 22.8 | 60.0 | 23.0 | 26.8 | 26.6 | 8.4 | 17.6 | 28.8 | 26.8 |
| CoT | 25.4 | 62.0 | 21.6 | 30.2 | 30.4 | 8.8 | 22.4 | 34.0 | 29.4 |
| RAG | 37.8 | 60.8 | 39.0 | 32.8 | 28.8 | 10.8 | 21.6 | 46.6 | 34.8 |
| IRCoT | 38.4 | 59.0 | 38.8 | 32.6 | 28.8 | 11.4 | 24.8 | 50.4 | 35.5 |
| Search-o1 | 36.6 | 64.4 | 41.8 | 37.2 | 36.6 | 14.8 | 22.4 | 47.6 | 37.7 |
| Search-R1 | 42.6 | 61.4 | 40.4 | 38.4 | 34.6 | 14.2 | 31.2 | 65.6 | 41.1 |
| Search-P1 | 50.6 | 68.8 | 42.4 | 45.0 | 43.6 | 20.2 | 35.2 | 86.2 | 48.8 |
关键发现:
- Search-P1 vs Search-R1:平均准确率从41.1%提升到48.8%,绝对提升7.7个百分点,相对提升18.7%
- AD-QA 上的飞跃:从65.6%到86.2%,提升超过20个百分点。AD-QA 是腾讯内部的广告领域问答数据集(Advertisement QA),包含大量需要精准检索的专业问题,这个提升说明 Search-P1 学到了更稳健的推理能力
- 多跳问答全面领先:在 HotpotQA(+6.6)、2WikiMultiHopQA(+9.0)、Musique(+6.0)上都有显著提升,说明路径奖励对复杂推理特别有效
Qwen2.5-3B-Instruct 结果:
| 方法 | NQ | TriviaQA | PopQA | HotpotQA | 2Wiki | Musique | Bamboogle | AD-QA | 平均 |
|---|---|---|---|---|---|---|---|---|---|
| Search-R1 | 37.6 | 52.8 | 36.4 | 31.4 | 28.6 | 9.8 | 20.8 | 52.4 | 33.7 |
| Search-P1 | 44.4 | 58.6 | 42.2 | 39.2 | 37.0 | 16.4 | 30.4 | 64.2 | 41.6 |
3B 模型上平均提升7.9个百分点,说明 Search-P1 的优势在较小模型上同样成立甚至更加明显——小模型更容易犯错,因此软性评分从失败样本中挖掘信号的能力就更有价值。
8.2 消融实验:双轨缺一不可
论文对路径中心奖励的两条评分轨道(Track A: Self-Consistency, Track B: Reference-Alignment)进行了消融分析:
| 配置 | 平均 ACC |
|---|---|
| Search-P1 (完整双轨) | 47.3 |
| w/o Reference-Alignment(仅 Track A) | 42.0(-5.3) |
| w/o Self-Consistency(仅 Track B) | 44.2(-3.1) |
| Search-R1 (基线) | 39.6 |
几个关键观察:
- 移除 Reference-Alignment 影响最大(-5.3),说明外部参考计划提供的对齐信号非常关键。没有参考计划作为标杆,模型仅靠自我评估容易陷入"自我满足"——自己制定的计划可能本身就不好,但自一致性评分仍然可能较高
- 移除 Self-Consistency 影响次之(-3.1),说明自一致性评分也有独立价值。它为那些找到非标准但有效路径的模型提供了正向反馈
- 两者缺一不可:单独任何一条轨道的效果都仍优于 Search-R1 基线(42.0/44.2 vs 39.6),但两轨结合(47.3)的效果远超任何单轨,说明双轨设计存在明显的互补效应
9. 超参数敏感性:平衡的艺术
图5:超参数敏感性分析。(a) 路径奖励权重 \(\lambda_p\),(b) 结果准确率权重 \(\lambda_a\)。
图5揭示了一个有趣的权衡:
路径奖励权重 \(\lambda_p\)(图5a):随着 \(\lambda_p\) 增大,路径奖励(Process Reward)自然上升,但结果奖励(Outcome Reward)反而下降。最优点在 \(\lambda_p = 0.3\)——过高的路径奖励权重会导致模型"过度优化推理过程"而忽略了最终答案的正确性。
这很像"过程与结果"的经典辩论。太看重过程(\(\lambda_p\) 过大),模型会学会"写漂亮的推理步骤但答不对题";太看重结果(\(\lambda_p\) 过小),又退化回 Search-R1 的稀疏奖励问题。0.3 是一个甜蜜点——以结果为主、过程为辅。
结果权重 \(\lambda_a\)(图5b):在错误样本的软性评分中,\(\lambda_a\) 控制准确率和推理质量的相对权重。最优值为0.8,说明即使在软性评分中,准确率仍然应该是主导因素。\(\lambda_a = 1.0\) 反而下降,因为这等于完全忽略推理质量信号,退化为二值评分。
我的看法是,这个超参数分析揭示了 RL 训练中一个普遍的原则:奖励信号需要多样但不能失焦。路径奖励提供丰富的中间信号,但最终目标仍然是回答正确——路径奖励是手段,不是目的。
10. 训练与推理效率
图6:Search-P1 与 Search-R1 的训练和推理效率对比。(a) 训练过程中准确率和搜索轮次变化,(b) 推理时不同任务类型的平均搜索轮次。
图6展示了一个令人意外的结果:Search-P1 不仅更准确,还更高效。
训练阶段(图6a): - Search-P1(蓝色)的准确率随训练快速攀升到约45%,同时搜索轮次从约4次逐渐下降到约2.2次 - Search-R1(绿色)准确率停滞在约37%,搜索轮次稳定在约3次
这意味着 Search-P1 学会了"用更少的搜索达到更高的准确率"。路径奖励教会了模型更高效地规划搜索策略——不需要盲目搜索多次,而是精准地搜索最关键的信息。
推理阶段(图6b): - 在单跳、多跳和对抗性问答三种场景下,Search-P1 的平均搜索轮次都低于 Search-R1 - 特别是在成功的case中,Search-P1 使用的搜索轮次更少
这对实际部署意义重大:每次搜索都意味着额外的检索延迟和计算开销。Search-P1 不仅答得更对,还答得更快。
11. 深度思考与个人评论
11.1 从稀疏到稠密:奖励信号的进化论
回顾 AI 训练的历史,我们可以看到一条清晰的进化脉络:
- 监督学习时代:每个样本都有明确的标签信号,但需要大量人工标注
- RLHF 时代:用人类偏好作为奖励,但信号仍然是稀疏的(一个完整回答只有一个偏好分数)
- 过程奖励时代(PRM, Process Reward Model):OpenAI 等团队开始尝试在推理的每一步都给奖励,但需要额外训练奖励模型
- Search-P1:通过巧妙的启发式设计(双轨评分),在不需要额外奖励模型的情况下实现了稠密的过程反馈
我认为 Search-P1 的方法论意义大于它的具体技术——它证明了在 Agentic AI 的训练中,我们不需要昂贵的过程奖励模型,仅通过结构化的轨迹设计和简单的匹配规则,就可以从推理路径中提取有效的训练信号。这对资源有限的团队来说,是一个非常实用的方向。
11.2 Planner 的双重角色
Search-P1 中的 Planner 设计体现了一种优雅的"一箭双雕"思路:
- 推理层面:强制模型先规划再执行,提高了推理的条理性和完整性
- 评估层面:Planner 输出为路径评分提供了对照标准(Track A),使得过程评估成为可能
没有 Planner,Track A 的自一致性评分就失去了基础。这说明好的系统设计不仅要考虑"如何做得更好",还要考虑"如何衡量做得好不好"。可评估性本身就是系统设计的一部分。
11.3 失败样本的价值被严重低估
Search-P1 的软性结果评分触及了 RL 训练中一个长期被忽视的问题:失败样本的信息量。
在传统的 RL 框架中,失败=零奖励=零梯度贡献。但现实世界中,失败往往比成功包含更多的学习信号——一个企业家从10次失败中学到的比1次成功中学到的多得多。
Search-P1 的做法是给失败样本一个小但非零的奖励(基于推理路径质量),让这些样本也能参与梯度更新。从 AD-QA 上20个百分点的提升来看,这种直觉是正确的。
不过,我认为当前的软性评分设计(\(\alpha=0.8\) 的线性组合)还比较粗糙。未来可能有更精细的方式来评估失败样本的价值——比如根据"离正确答案有多远"来动态调整奖励大小,或者根据推理路径中"走对了多少步然后走错了"来分配部分分数。
11.4 局限性的坦诚
论文也诚实地讨论了几个局限:
- 检索器固定:Search-P1 使用固定的 E5 检索器,没有联合训练检索器。如果检索器本身质量差,好的规划也无济于事
- 参考计划质量:参考计划通过自动化方式生成,可能存在噪声。在模型能力较弱时,生成的参考计划质量也会下降
- 泛化性:所有实验都在 Wikipedia 知识库上进行,对其他领域(如医学、法律)的泛化性未知
12. 工程启示与实践建议
如果你正在构建自己的 Agentic RAG 系统,Search-P1 提供了几个可直接借鉴的工程思路:
-
永远加一个 Planner:在模型开始搜索之前,强制它先输出一个计划。这不仅提升推理质量,还为后续的质量评估提供了锚点
-
奖励信号要多维度:不要只看最终结果。即使没有RL训练,在评估和筛选阶段也可以用路径质量作为额外的筛选维度
-
格式约束要循序渐进:不要一开始就对输出格式要求严格。给模型一个"缓冲期"先学会核心能力,再收紧格式要求
-
珍惜失败样本:在数据收集和标注中,不要丢弃失败的样本。它们可能包含有价值的中间信号
-
超参数的 0.3/0.7 法则:过程奖励约占30%、结果奖励约占70%是一个不错的起点。过度强调过程会导致模型"过度表演"
13. 总结
Search-P1 解决了 Agentic RAG 强化学习训练中的一个核心痛点:稀疏的结果奖励导致训练信号不足、不稳定。通过引入显式的推理规划器、双轨路径评分和软性结果评分,Search-P1 实现了"既看结果又看过程"的稠密奖励信号,在多个QA基准上显著超越了 Search-R1 基线。
更重要的是,Search-P1 的方法论不局限于搜索代理。任何需要多步决策的 AI 系统——代码生成、数学推理、工具调用——都可以借鉴"路径中心奖励塑形"的思路,从推理过程中挖掘更丰富的训练信号。
在 AI Agent 训练从"结果导向"走向"过程导向"的大趋势下,Search-P1 提供了一个简洁而有效的解决方案。它告诉我们:好的训练不是只看学生考了多少分,而是看他有没有学会思考。
参考文献:
- Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. (arXiv:2503.09516)
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. (arXiv:2501.12948)
- HiPRAG: Hierarchical Process Rewards for Agentic RAG. (arXiv:2510.07794)
- GRPO: Group Relative Policy Optimization. (DeepSeekMath, arXiv:2402.03300)