GPT-5.1 也只拿了 69 分?妙问团队三篇论文揭秘:大模型在真实业务中翻车的真相与破局之道

三篇论文,一条主线:让大模型在真实广告业务中干活时,少犯错、能纠错、知道自己几斤几两。


一、先说背景:我们到底在解决什么问题?

过去一年,大模型在广告营销领域的落地速度远超预期。从智能客服到投放分析,从素材建议到数据报表,几乎每个环节都在尝试接入 LLM。

但实际上线后,我们很快发现了三个绕不开的痛点:

痛点一:不知道 Agent 能力到底行不行。 学术界有一大堆 benchmark,但拿来评测广告场景下的 Agent,基本都"水土不服"——数据是编的、任务是简化的、评测只看最终答案对不对。我们需要一个能反映真实业务复杂度的"试金石"。

痛点二:Agentic RAG 训练太难收敛。 让模型学会"自己搜、自己想、自己答"的多步推理,用强化学习(RL)来训是目前最有潜力的路。但传统 RL 只看最终结果——答对了给奖励,答错了零分。这就导致大量"虽然答错了但中间推理有价值"的样本被白白浪费,训练效率低、不稳定。

痛点三:线上系统的幻觉问题。 广告问答场景下,模型编造 URL 不是"用户体验差"的小事,而是可能导致合规风险的大事。我们的基线系统 URL 准确率只有 93.6%——听起来还行?但每天上万次查询,6.4% 的错误率意味着每天有几百个用户被假链接坑。

这三个痛点,分别催生了我们的三篇工作。它们不是孤立的研究项目,而是同一条技术路线上的三个环节——评测→训练→部署,形成了一个完整的闭环。


二、AD-Bench:给广告 Agent 搭一个"真题考场"

论文:AD-Bench: A Real-World, Trajectory-Aware Advertising Analytics Benchmark for LLM Agents 链接:https://arxiv.org/abs/2602.14257

为什么现有 benchmark 不够用?

市面上的 Agent 评测基准(GAIA、AgentBench、WebArena 等)有个共同问题:它们测的是"通用能力",而不是"业务能力"。

打个比方,这些 benchmark 就像高考模拟题——覆盖面广,但不会考"腾讯广告后台 OCPC 出价策略的 ROI 计算方法"。而我们的广告优化师每天真正要回答的,恰恰就是这类高度专业化的问题。

更麻烦的是,现有 benchmark 只关心最终答案对不对,不看中间过程。一个 Agent 瞎猫碰上死耗子蒙对了答案,和一个步骤清晰、逻辑合理地推导出答案,在评分上完全一样。这对工程优化毫无指导意义——你连问题出在哪都不知道。

我们怎么做的?

AD-Bench 整体流程:左侧在线环境中专家标注生成 Ground Truth,右侧离线环境中 LLM Agent 执行任务后进行"答案+轨迹"双轨评估

AD-Bench 的两阶段流程。左边是在线广告环境中,专家标注生成带标注的 Ground Truth;右边是离线评估环境中,LLM Agent 执行任务后,用 LLM Judge 判断答案正确性,同时对 Agent 的工具调用轨迹做子序列覆盖率匹配。

从腾讯广告营销平台的真实运营日志中,筛选出 823 条原生用户分析请求,让领域专家逐条标注完成任务所需的工具调用序列和最终答案。

任务按复杂度分三级: - L1(24%):查个数据就行,比如"账户 A 昨天消费多少" - L2(47%):需要筛选+计算,比如"过去 7 天 ROI 低于 2 的计划有哪些?平均转化成本?" - L3(29%):需要跨数据源推理+领域知识,比如"结合行业均值分析这组素材效果,给优化建议"

L2 占了将近一半,这和我们的直觉一致——广告运营中最高频的需求就是"帮我筛一下、算一下"。

评测维度上,我们搞了"结果分+过程分"双轨评估

  1. 答案正确率(Pass@k):用 LLM Judge 对比最终答案和 ground truth
  2. 轨迹覆盖率(Trajectory Coverage):检查 Agent 实际调用的工具序列,是否覆盖了专家标注的关键步骤

第二条尤其重要。它相当于考试的"过程分"——不光看你算对了没有,还看你的解题步骤对不对。一个蒙对答案但工具调用乱七八糟的 Agent,在这个指标下会露出原形。

测出了什么?

我们拉了 10 个主流模型来跑,结果很有意思:

10 个模型在 AD-Bench 上的 Pass@3 得分对比

10 个模型在 AD-Bench 上的 Pass@3 得分。GPT-5.1 以 69% 领跑,但距离"好用"还有不小距离。国产模型混元 2.0 和 DeepSeek-V3 都达到了 62%,与 Gemini-3-Pro 持平。

模型 Pass@1 Pass@3
GPT-5.1 57% 69%
Gemini-3-Pro 51% 62%
混元 2.0 49% 62%
DeepSeek-V3 51% 62%
Qwen3-235B 34% 45%

最强的 GPT-5.1 也只拿到 69 分。 L3 任务更惨,最好的模型也就 50% 左右——需要跨数据源整合信息+调用领域知识的复杂分析,当前 Agent 真撑不住。

但最有价值的发现藏在 L2 里。看下面这组散点图:

轨迹覆盖率与 Pass@3 的相关性分析:整体 r=0.691,L1=0.784,L2=0.372,L3=0.803

轨迹覆盖率和答案正确率的相关性分析。整体相关系数 r=0.691;按难度拆分后,L1 为 0.784(强相关),L2 为 0.372(弱相关),L3 为 0.803(强相关)。L2 的低相关性说明:问题不在于"不知道该做什么",而在于"做的时候做错了"。

L2 任务的轨迹覆盖率和答案正确率的相关性只有 0.372,远低于 L1 的 0.784 和 L3 的 0.803。

这意味着:L2 的问题不在于"不知道该做什么",而在于"做的时候做错了"。 Agent 知道要调数据查询和计算器工具(轨迹对了),但传错了参数、算错了数值(结果不对)。这直接告诉我们:与其在 L2 上优化规划能力,不如强化数值计算和参数传递的精度。

这就是 AD-Bench 的核心价值——不只是给模型排名,而是帮你定位问题出在哪


三、Search-P1:让 RL 训练不再"只看成绩单"

论文:Search-P1: Path-Centric Reward Shaping for Stable and Efficient Agentic RAG Training 链接:https://arxiv.org/abs/2602.22576

问题出在哪?

通过 AD-Bench 定位了能力短板后,下一步就是训练。我们希望用 RL 来训练一个能自主搜索和推理的 Agent(Agentic RAG),让它学会多步检索来回答复杂问题。

之前的代表性工作 Search-R1(UIUC)已经证明了 RL 训练 Agentic RAG 是可行的,在多个问答基准上平均提升了 26%。但它有个根本缺陷:奖励信号太稀疏

Search-R1 的奖励机制就像一个只看成绩单的家长——考了 100 分就表扬,没考 100 分就零分。这带来三个后果:

  1. 一个学生"蒙对了"和"真正理解了"得到同样的奖励,模型分不清好路径和碰巧正确的路径
  2. 大量答错的样本(尤其是训练早期)获得零奖励,对训练完全没有贡献——白白浪费了
  3. 训练震荡严重,模型表现忽好忽差

我们的方案:既看结果也看过程

Search-P1 的核心改进可以用一句话概括:不只看你答对了没有,还看你的推理路径好不好。

Search-P1 框架的整体架构:输入与策略更新 → 轨迹生成 → 参考计划生成 → 双轨路径评分

Search-P1 框架全景。包含四个核心模块:(1) 输入与策略更新,(2) 轨迹生成(Planner→Search→Think→Answer),(3) 参考计划生成(拒绝采样+LLM 投票),(4) 双轨路径评分(自一致性 + 参考对齐)。

具体来说,我们做了三件事:

第一,强制模型"先想后做"。 在模型开始搜索之前,要求它先输出一个推理计划(Planner):"我打算分几步解决这个问题,每一步搜索什么"。这就像做菜之前先在脑子里过一遍步骤,而不是走一步看一步。

第二,双轨路径评分。 从两个角度给推理路径打分:

  • 自一致性(Track A):你是否按照自己制定的计划执行了?如果你计划做三件事但只做了两件,或者做了五件事里只有两件在计划内,分数都会降低。
  • 参考对齐(Track B):你的路径是否和"好的路径"对齐?我们通过拒绝采样+投票,从模型自己生成的大量轨迹中提取出共识性的好路径作为参考。

最终路径得分取两条轨道的最大值——这确保了那些找到非标准但同样有效的推理路径的样本不会被误伤。

第三,给失败样本也打分。 答案错了不再一律零分。如果推理过程中有合理的搜索和分析,哪怕最终没答对,也能拿到一个小的正分(上限约 0.2)。就像体育比赛的"技术分"——摔倒了也能靠之前的高难度动作拿一些分数。

效果如何?

Search-P1 与各基线方法在 8 个基准上的性能雷达图

Search-P1(蓝色填充)与各基线方法在 8 个问答基准上的雷达图对比。可以清楚看到 Search-P1 在几乎所有维度上都包住了其他方法,尤其是 AD-QA(广告问答)维度上的优势最为明显。

在 Qwen2.5-7B 上的实验结果:

方法 8个QA基准平均 AD-QA(广告问答)
标准 RAG 34.8% 46.6%
Search-R1 41.1% 65.6%
Search-P1 48.8% 86.2%

几个关键数字:

  • 相比 Search-R1,平均提升 7.7 个百分点
  • 在 AD-QA(我们的广告问答数据集)上提升超过 20 个百分点——这个数据集包含大量高难度的专业问题,路径奖励在这种场景下价值特别大
  • 多跳问答任务(HotpotQA、2Wiki、Musique)全面领先,说明路径奖励对复杂推理特别有效

还有个意外之喜:Search-P1 不仅更准确,还更高效。 训练过程中,模型的平均搜索轮次从约 4 次下降到约 2.2 次——它学会了"用更少的搜索达到更高的准确率"。每少搜一次,就意味着少一次检索延迟和计算开销。

Search-P1 与 Search-R1 的训练效率和搜索轮次对比

训练与推理效率对比。左图:训练过程中 Search-P1(蓝色)准确率快速攀升的同时搜索轮次反而在下降,而 Search-R1(绿色)准确率停滞、搜索轮次居高不下。右图:推理阶段不同任务类型的平均搜索轮次,Search-P1 全面更低。

消融实验确认了双轨设计缺一不可:去掉 Track B(参考对齐)掉 5.3 个点,去掉 Track A(自一致性)掉 3.1 个点,而两者结合的提升远超单轨。

消融配置 平均准确率 变化
Search-P1(完整双轨) 47.3%
去掉 Track B(参考对齐) 42.0% -5.3
去掉 Track A(自一致性) 44.2% -3.1
Search-R1(基线) 39.6% -7.7

四、Faithful RAG:让线上系统"不说谎"

论文:Towards Faithful Industrial RAG: A Reinforced Co-adaptation Framework for Advertising QA 链接:https://arxiv.org/abs/2602.22584

从实验室到生产线,最后一公里有多远?

有了评测基准(AD-Bench)和训练方法(Search-P1),下一步就是把 RAG 系统真正推上生产线。但生产环境带来了一个实验室里感受不到的问题:容错率极低

学术论文追求的是"平均准确率提升了几个点",但在线上系统里,哪怕 1% 的错误率,乘以每天的查询量,都是一个巨大的数字。而广告场景下有一类错误特别致命——URL 幻觉

模型给用户一个操作指引,末尾附了一个帮助文档链接,用户点进去发现是 404 页面。轻则用户骂娘,重则可能被投诉、甚至产生合规风险。这不是偶发事件——我们测了市面上几个主流商业模型,URL 准确率最低的只有 92.2%。

传统 RAG 在广告 QA 中的四类典型翻车场景 vs 新方案的精准回答

传统方法的四类典型问题——回答不完整、编造虚假 URL、过度生成无关内容、冗长赘述。对比之下,新方案能精准引用真实 URL,回答简洁且覆盖关键点。

检索端:GraphRAG + 传统 RAG 并行

系统架构总览——左侧 GraphRAG 检索模块 + 传统 RAG 并行通道,右侧证据约束 GRPO 生成模块

整体架构。左半部分是检索模块,GraphRAG 通道和传统 RAG 通道并行运行,结果合并去重后送入右半部分的生成模块。生成模块用 GRPO + 四维奖励函数来训练 LLM,确保输出忠实、合规、不编 URL。

我们的做法是"两条腿走路"。

传统 RAG(BGE 向量检索 + BM25 关键词匹配)覆盖面广但"看不见"知识之间的关系。GraphRAG 在文档块之上叠了一层知识图谱,能沿着实体关系做多跳追踪,但受限于图谱覆盖率——没被抽取到图谱里的知识就找不到。

所以我们让两者并行运行,结果取并集去重。GraphRAG 负责高频问题的深度检索,传统 RAG 负责长尾问题的广度覆盖。延迟上也划算——两条通道同时发起,总延迟等于较慢的那个,控制在 200ms 以内。

建图时有个取巧的做法:不是在全量知识库上建图(太贵),而是从 3 个月的生产日志中统计引用频率,只选 Top 10% 的高频 chunk 来建图。广告问答遵循幂律分布——10% 的知识覆盖了大部分用户问题,这样建图成本可控但效果不打折。

并行方案把知识召回效率从 62.3% 提升到 81.5%。

三种检索方案的召回效率对比:Base RAG vs GraphRAG vs Parallel(并行方案)

三种检索方案对比。GraphRAG 单独跑就比 Base RAG 好不少,但并行方案(Parallel)在召回效率上进一步提升——两条腿确实比一条腿跑得稳。

生成端:四把尺子的 GRPO 训练

检索端捞回了好的证据,还得确保模型"用好"这些证据。我们用 GRPO(DeepSeek 提出的组相对策略优化算法)来训练生成模型,核心是设计了四维奖励函数:

奖励维度 衡量什么 怎么打分
忠实度 \(R_f\) 回答是否基于检索证据 NLI 模型逐条验证
风格合规 \(R_s\) 格式和语气是否合规 规则模板匹配
安全性 \(R_a\) 是否触发安全红线 安全审核模型
URL 有效性 \(R_h\) 引用的 URL 是否真实存在 发 HTTP 请求验证

其中 URL 有效性奖励是我们针对广告场景专门设计的——HTTP 状态码是客观事实,不需要人工标注,返回 200 就是存在,404 就是不存在。这是一种"零成本高质量"的奖励信号。

训练过程中,安全性最先收敛(模型很快学会了哪些话不能说),忠实度和 URL 有效性爬坡最慢(学会判断"哪些信息有据可查"和"哪些 URL 是真的"需要更多训练)。但四维奖励之间没有出现冲突,最终都收敛到了不错的水平。

RL 训练过程中五条奖励曲线的收敛情况

训练曲线。五条线分别代表风格(蓝)、安全(橙)、忠实度(灰)、URL 有效性(黄)和总体奖励(深蓝)。Safety 和 Style 在训练早期就快速收敛,Faithfulness 和 Link 爬坡更慢但最终也稳定了。四维奖励之间没有严重冲突。

线上效果

基座模型选了 Qwen3-32B——不是最大的模型,但 RL 训练后的 32B 模型在 FaithEval 基准上反超了参数量大得多的 DeepSeek-V3.2(81.2% vs 78.5%)。这再次验证了"小模型+好训练"比"大模型+裸跑"更靠谱。

FaithEval 泛化能力对比:RL 训练后 Qwen3-32B 反超 DeepSeek-V3.2

FaithEval 泛化测试。RL 训练后的 Qwen3-32B(右)在所有场景上都大幅提升,Overall 从 62.8% 跃升到 81.2%,甚至超过了参数量大得多的 DeepSeek-V3.2(78.5%)。

在线 A/B 测试结果:

指标 变化
点赞率 +28.6%
点踩率 -46.2%
URL 幻觉率 -92.7%

URL 准确率 99.3%,碾压 DeepSeek-V3.2(93.6%)、Kimi K2.5(95.0%)、豆包(92.2%)、混元 2.0(96.5%)等所有商业模型。

URL 准确率对比:新方案 99.3% 碾压所有商业模型

URL 准确率 PK。99.3% vs 最高的混元 2.0(96.5%),差距看起来只有 2.8 个百分点,但放到每天上万次查询的量级上,错误数差了一个数量级。

模型 URL 准确率
Ours (Qwen3-32B-RL) 99.3%
HunYuan 2.0 96.5%
Kimi K2.5 95.0%
DeepSeek-V3.2 93.6%
Doubao 1.8 92.2%

点踩率降了近一半,这说明之前那些"编 URL"、"答非所问"的情况确实大幅减少了。这套系统上线后已经稳定服务了大半年,扛住了百万级交互的考验。


五、三篇论文的内在联系

回过头来看,这三篇工作不是各自为战,而是一条完整的技术链路:

AD-Bench(评测)→ Search-P1(训练)→ Faithful RAG(部署)
"知道差在哪"  →  "学会怎么做"  → "上线不犯错"

AD-Bench 发现了问题:广告分析 Agent 在 L2 任务上的瓶颈不在规划而在执行,在 L3 任务上的瓶颈是多步推理中的错误累积。这两个发现直接指导了后两篇工作的技术方向。

Search-P1 解决了训练问题:通过路径中心的奖励塑形,让 RL 训练能从失败样本中学到东西,训练效率和稳定性大幅提升。AD-QA 上 20 个百分点的提升,说明这种训练方法在广告领域特别有效。

Faithful RAG 解决了部署问题:GraphRAG 并行检索+多维奖励函数的 GRPO 训练,让模型在生产环境中既能回答得准确,又不会编造信息。URL 幻觉率降了 92.7%,这是实实在在的线上收益。

三篇论文还共享了一个核心理念:过程和结果同样重要。

  • AD-Bench 的轨迹覆盖率,评估的是 Agent 的推理过程
  • Search-P1 的路径奖励,训练的是模型的推理过程
  • Faithful RAG 的多维奖励函数,约束的是生成的每个环节

这和只看最终答案的传统范式形成了鲜明对比。我们越来越相信:做好工业级 AI 应用,关键不是让模型"更聪明",而是让模型"更可靠"——犯错率比准确率重要。


六、一些踩坑经验和思考

做这三篇工作的过程中,有几个教训值得分享:

1. "真实数据"比"大规模数据"重要

AD-Bench 只有 823 条数据,但因为每一条都来自真实的广告运营场景,评测出来的结论比几千条合成数据更有参考价值。同样,Faithful RAG 用生产日志中 Top 10% 的高频知识来建图谱,效果远好于在全量数据上建图。

核心是:数据的质量和代表性,比数量更关键。

2. 失败样本是金矿

Search-P1 最重要的贡献之一,是把答错的样本也利用起来。这在广告场景下尤其关键——很多问题本身就难,训练早期答对率很低,如果答错的样本全部浪费,训练效率会极差。

给失败样本一个合理的评价(哪怕是很小的正分),比直接扔掉它们有效得多。

3. 奖励函数要"接地气"

Faithful RAG 的四维奖励函数没有任何花哨的算法创新,但每一维都直接对应一个业务痛点。特别是 URL 有效性奖励——发个 HTTP 请求就能判断真假,零标注成本,效果立竿见影。

设计奖励函数时,先问自己:业务上最不能忍受的错误是什么?然后找一个能客观验证的方式把它量化。

4. 并行架构是工业系统的标配

无论是 Faithful RAG 的 GraphRAG+传统 RAG 并行检索,还是 Search-P1 的双轨路径评分,背后的思路是一样的:单一方案总有盲区,多个方案互相补位更可靠。 并行架构在延迟上也不亏——并行比串行快。

5. 小模型+好训练 > 大模型+裸跑

Faithful RAG 用 Qwen3-32B + RL 训练,效果超过了 DeepSeek-V3.2 裸跑。Search-P1 用 7B 模型也取得了不错的效果。在推理成本敏感的工业场景中,投资训练方法比换更大的模型更划算。


七、接下来的计划

这三篇工作覆盖了"评测→训练→部署"的基本闭环,但还有很多可以做得更好的地方:

  1. AD-Bench 的工具集可以扩展——当前 9 个工具只覆盖了广告分析的基本操作,A/B 测试分析、素材归因、预算优化等高级功能还没覆盖
  2. Search-P1 的检索器目前是固定的——如果能联合训练检索器和推理器,效果应该还有提升空间
  3. Faithful RAG 的知识图谱维护——广告平台产品迭代快,怎么让图谱跟上变化速度是一个工程挑战
  4. 三篇工作的更深度整合——比如用 AD-Bench 来评测 Search-P1 训练出来的 Agent,再用 Faithful RAG 的多维奖励来指导 Search-P1 的训练

做真实场景的 AI 应用,踩坑无数但确实乐趣满满。欢迎大家阅读论文、交流拍砖!


论文链接汇总: - AD-Bench:https://arxiv.org/abs/2602.14257 - Search-P1:https://arxiv.org/abs/2602.22576 - Faithful RAG:https://arxiv.org/abs/2602.22584