AI Paper Analysis
首页
按主题
Agent 智能体 (90)
MMG2Skill:把网上现成的多模态攻略,喂成 Agent 自我进化的技能包
自动 harness 在线上部署越跑越烂?这篇论文把"进化"和"适应"两个损失彻底拆开了
Harness-1:把"思考过程"写到外面去——一个 20B 搜索智能体如何打过 Opus 和 GPT-5
让 Agent 自己长记忆:用代码覆盖率当奖励,把"探索"和"记住"绑在一起训
观测掩码不是免费午餐:搜索智能体的 Regime Map 与机制拆解
失败一整条轨迹,到底该怪哪一步?SkillAdaptor 用步级归因把 Agent 的技能库改对了
让 AI 自己当数据工程师:从零自主策划训练数据,把学生模型涨了 57.29%
把一个"懂事的同事"打包成 Skill:从异构痕迹蒸馏可检查、可修正、可回滚的 AI 技能
GrepSeek:让搜索智能体扔掉向量索引,直接用 grep 翻语料
TCP-MCP:把多 Agent 系统的 prompt 和拓扑当作"基因组"一起进化
HINT-SD:长程 Agent 训练里,"在哪里反馈"比"反馈多稠密"更值钱
MUSE-Autoskill:把 Agent 技能从"一次性产物"管成"有生命周期的资产"
Agent的"空闲时间"被浪费了——ProAct想用它干点正事
8K 条合成任务,把开源深度研究 Agent 拉到闭源水平 —— QUEST 论文细读
技能到底该"记住"还是"带着"?Skill0.5 给出了一个折中但有效的答案
把 Agent 的 Skill 当参数来训:SkillOpt 让一个 Markdown 文件涨 23 个点
多Agent投票投出个寂寞?这篇AAAI 2026把冷战时期的情报学方法搬了进来
Conformal CPO:把保形预测嵌入 LLM Agent 编排策略,可证明可靠性 + 30% 成本节省
DEPO:把"少 token + 少步骤"同时塞进 KTO 的偏好优化
Agent 轨迹的"监督盲区":把多轮工具调用编译成长上下文训练数据,30B 干到 235B
2011 年的 DAgger 被搬回来训 SWE 智能体,4B 模型干翻一票 8B 系统
HAGE:让 Agent 的记忆图自己学会该走哪条边
把 Agent 的"技能"从文本提示升级成可执行护栏:HASP 框架到底解决了什么
工业质检领域的 MLLM 卡在哪了?这篇论文给了一个把工具调用塞进 RL 的解法
当 Prompt 优化器在 6 个任务里 4 个原地踏步:MOCHA 用切比雪夫退火给 Agent 技能找出路
MetaAgent-X:让设计器和执行器一起进化,自动 MAS 的天花板被端到端 RL 撞穿了
一篇综述把多智能体的"协作—归因—自演化"串成一条因果链:LIFE 框架的意义
SkillsVote:当智能体技能库长到百万级,怎么不让它把Agent带歪?
Solvita:四智能体闭环 + 可训练知识网络,让大模型在 Codeforces 打到 Legendary Grandmaster
Ctx2Skill:让模型读完一份文档就"自己出题考自己"——无反馈下的 skill 自演化
Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊
当工具库膨胀到4万个,Agent该怎么"找工具"?UCLA这篇FitText把检索塞进了推理循环
SLIM:Agent 的"技能仓库"不应该一味变大或变小——技能要有生命周期
SSL:把 SKILL.md 拆成三层结构化图谱——技能检索 MRR 涨 8 个点、风险评估 F1 涨 10 个点
Skill1:用一个奖励信号,把 Agent 的"选、用、攒"三件事一起练出来
SkillOS:与其训练 Agent 自己变强,不如训练一个专门管"技能库"的小模型
让 Agent 先「想清楚再动手」:StraTA 给长程 Agent RL 加上一层策略抽象
TMAS:当并行多路推理不够用,怎么让多 Agent 真正"协同"起来?
Web2BigTable:用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍
决策和执行拆开训:一篇把 Agentic RAG 写成 MDP、再用剪枝把数据造快 6 倍的工业界论文
好过程无需好答案:把 Agent 的规划和总结拆开训,工业 RL 才走得通
Agent别再"想都不想就动手"了:SAND教大模型先在脑子里把候选动作走一遍
部署即固化的Agent,怎么在线学新规则?ARIA给了一个能落地的答案
让 Web Agent 自学不停滞——WebEvolver 用一个共演化世界模型撑起多步 Look-Ahead
Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读
Agent-World:当智能体训练终于不用再"假装"在跟世界打交道
AgentSPEX:当 Agent 框架开始把"控制流"从 Python 里抠出来
DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压
终端Agent的"上下文垃圾场"清理工:TACO 用一个不停进化的规则池替代手写 prompt
撕掉"自进化"的伪装:让Agent在没人喂奖励的时候,自己摸清楚一个陌生世界
AgentSwing:长时Web Agent的上下文管理,为什么"一条路走到黑"行不通
AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式
你以为你在用不同的数据集训练模型?谱系图告诉你:它们都是同一棵树上的枝条
GraSP:给Agent的技能加上因果图,多了反而更行
让Agent自动调模型:TREX用搜索树把LLM微调做成了下棋
Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案
CORAL:当多个 AI Agent 学会自己搞进化,效率碾压传统搜索 3-10 倍
AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么?
检索模型该为谁训练?当搜索的用户从人变成了AI Agent
一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了
训练时把技能"喂"进参数里,推理时不带小抄也能满分——Skill0的技能内化之路
SkillX:让 Agent 学会"传帮带",自动构建可复用的技能知识库
从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)
7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化
8B小模型干翻GPT-4o?用"信息不对称"让LLM自己查自己的幻觉
LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客
不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent
MetaClaw:让 AI 智能体"边干边学"——双时间尺度持续进化框架
从零搭一个 AI Agent 框架,到底需要理解什么?
OpenSeeker:首个完全开源训练数据的搜索 Agent,单次 SFT 逆袭复杂工业管线
Agent Teams 深度解读:从 Claude Code 到多智能体协作的技术全景
OpenClaw-RL 论文解读:用"下一状态信号"统一所有智能体的强化学习训练
OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么
💥 别再死磕 Prompt 和 Workflow 了!DeepSeek-R1 引爆的 Agent 端到端强化学习革命
🎯 用模拟器"养"出一个能打的搜索Agent:8B小模型如何在无限上下文下学会推理、追问与规划
4B小模型干翻70B?CoVe用约束验证让工具调用Agent数据效率提升18倍
SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站
EMPO²:让LLM智能体学会"记笔记+开卷考"的强化学习框架
Tool-R0:零数据也能训出工具调用高手——自进化LLM Agent的破局之路
SkillOrchestra:用"技能手册"取代强化学习,让AI智能体调度又好又省
扩散语言模型也能当搜索代理?DLLM-Searcher用"边想边搜"的并行范式干掉了自回归模型
30B参数的搜索代理,凭什么在BrowseComp上和GPT-o3掰手腕?拆解REDSearcher的三段式训练框架
Agent World Model:给智能体造一个"矩阵世界"——无限合成环境驱动的强化学习
InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架
你的多智能体系统是"真协作"还是"真烧钱"?一个指标帮你看清真相
AgentScope 深度解读:多智能体开发框架的工程化实践
OpenClaw Cron 深度解读:让 AI Agent 学会自主定时工作
AI Agent 的分身术:深度解析 OpenClaw 子代理系统设计
Plan-and-Act:让AI智能体学会"先想后做"
Voyager:让 GPT-4 在《我的世界》里自主探索、终身学习
强化学习 (77)
给 reward hacking 装上一面"放大镜":rubric-based RL 的可控复现环境
ThoughtFold:让推理模型把"想得太多"的废话自己折叠掉
多域RL训练完Math就忘?这篇论文给出了"局部扰动"层面的解释
RL 训练时模型已经走错了,还非要让它写完 8192 个 token?阿里 Tongyi Lab 这篇 ESPO 把失败 rollout 提前掐了
长上下文 RL 训练数据该怎么造?让搜索 Agent 帮你筛干扰项
SAAS:让 Agent 学会"我自己其实知道"——用自感知 RL 治理过度搜索
不要再卷神经验证器了:用维基百科"共现次数"当奖励,事实问答RL训练快 8 倍
ROSD:让自蒸馏去"改错",而不是去"抄答案"
让 8B 小模型学会"我不知道":TIAR 用 GRPO 轨迹给弃权 reward 动态加权
Focal Reward:当 RL 把"容易拿分的维度"刷爆了,剩下的硬骨头怎么办
Agent训练越练越爱乱调工具?这篇论文让模型自己学会"什么时候该闭嘴查工具"
多奖励 RL 训练崩了?阿里云这篇 DVAO 给了 GRPO 一个真正干净的多目标解
RAG-R1:让模型自己决定要搜几次,把 RAG 从串行链改成自适应多查询并行
一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的"独白"改成了"群聊"
DeCoRL:把推理链拆成"乐团合奏"——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作
GenPRM:让 1.5B 的过程奖励模型,靠"边写边推理边跑代码"打赢 GPT-4o
LLMdoctor:用小模型 doctor 在 token 级别给冻结的 patient 大模型做"对齐处方"
Length Bias Causal 论文解读:用因果反事实拆掉 RLHF 奖励模型的"啰嗦偏好"
MEML-GRPO 论文解读:异构多专家互学习破解 RLVR 的奖励稀疏
PPPO 论文解读:前缀决定推理,RLVR 只优化开头就够了
ActGuide-RL:把 SFT 冷启动换成"动作引导"的智能体 RL 新范式
教蒸馏教师"少看一点",反而学生学得更好——LLM 推理自蒸馏的一个隐藏旋钮
30B 小模型拿 IMO 金牌:SU-01 把"会做题"和"会证明"拆开来打
用策略提示把模型推出舒适区:NudgeRL 让 8 个 rollout 跑赢 64 个
RLVR 训练只跑前 15% 步,剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文
SDAR:让每个 token 自己决定蒸馏强度——多轮 Agent RL 的一次"非对称信任"修补
不要任何人工标注,PRM 也能训出来——EPFL 这套 uPRM 把"+/-"两个 token 玩出花了
不要再给Agent硬塞PRM了:百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了
G-Zero:开放域任务里,没有 verifier 也能跑出 self-play 的奇迹?
LPO:把 GRPO 的"隐式投影"翻到台面上——RLVR 的几何统一视角
LenVM:把"还剩多少 token"建模成 value——给 LLM 装上了一个 token 级长度刻度尺
往 Prompt 前面拼一段 Lorem 乱码,GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的
多智能体 LLM 的 RL 该往哪走?这篇 84 篇综述把"编排轨迹"作为新单元
RubricEM:当 Deep Research Agent 没有 ground truth,RL 还怎么训?
SEIF:让模型自己出题考自己——指令跟随能力的自演化训练
多目标文本生成里,权重别再手写:AW-GRPO 把 GRPO 从「偏科」拉回正轨
把 RL Agent 直接扔进真实互联网:DeepResearcher 撕开了 RAG 训练的舒适区
GRPO-LEAD:让推理模型说人话——给 GRPO 加上长度、罚分和难度三味药
训RAG Agent老犯"搜了又搜"和"乱搜一气"两个毛病?LeTS给出了一个不靠人工标注的解法
不动模型、没有标签,让 Agent 在测试时把准确率干到 93.94%——EMNLP 2025 这篇 Schema Mapping 论文挺有意思
NOVER:把 R1-Zero 的"激励训练"从数学题搬到任意文本任务,靠的不是更大的 verifier,而是一个 perplexity
代码生成里 Process Reward 第一次被认真验证:PRLCoder 把"行级别"奖励喂给 PPO,难题 Pass@80 涨了 9.6 个点
PPO 不是 RLHF 的最优解:Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名
把 Reward Model 拆成五个"专科医生"——SRM 用工程套路在 RM 上又榨了 8 个点
WebAgent-R1:8B小模型在网页操作上把o3拉下马,多轮RL把分从8.5%硬拉到44.8%
iTool:合成数据加越多越没用?哈工大+华为用 MCTS 找出"那一小片错",8B 反超 GPT-4o
GFT:把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍
强LLM不一定是好"优化器":决定胜负的不是参数量,而是"局部精修"的能力
Too Correct to Learn:当模型"答得太对"时,GRPO反而学不动了
NPO:让"未来的自己"教会"现在的自己",RLVR走出Q/V困局
8个样本就能涨32个点?RLVR的"奇迹"为什么换到Llama身上就不复现了
测试时训练为什么总崩?TEMPO 用 EM 把缺失的那一步补回来
从推理到智能体:LLM强化学习中的信用分配,到底难在哪?
KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平
30 GPU小时训出AIME 69.9%:Lightning OPD把在线蒸馏搬到了离线
记忆增强的动态奖励塑形:MEDS如何让LLM不再"重蹈覆辙"
SPPO:别再逼Critic逐token猜了——序列级建模一招解决长链推理信用分配
TPO:把"该学什么"和"怎么学"拆开,梯度自己知道什么时候停
$p1$:用2道题训练出的系统提示,凭什么碾压全量数据?
RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合
GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了
让代码模型学会"脑内编译":不执行代码也能验证对错?
一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局
4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化
让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈
不需要SFT,仅靠上下文强化学习就能教会LLM使用工具
强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证
广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型
Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命
DSDR:让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架
Nanbeige4.1-3B:3B 参数的"六边形战士"是怎么炼成的
给大模型装一台"事实核查显微镜":RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉
TAROT:测试驱动 + 能力自适应课程,让代码强化微调"因材施教"
把简单题"拼"成难题:Composition-RL 如何让大模型越练越聪明
Dr. MAS:给多智能体LLM系统开一剂"镇静药"——稳定强化学习的理论与实践
体验式强化学习:让模型学会"吃一堑长一智"
SkillRL:让AI智能体学会"练功升级"的递归技能强化学习框架
RAG 检索增强 (17)
密集检索凭什么给高分?Xetrieval 用稀疏特征把黑箱掰开了
长篇小说推理卡壳怎么办?ComoRAG 让 RAG 学会"想到一半再去翻书"
LogicRAG:把图谱从离线建变成推理时即时拼,GraphRAG 这条路是不是走偏了
RALM 真的"知道自己不知道"吗?AAAI 2026 揭开检索增强模型的过度拒答陷阱
当 RAG 检索到的内容跟模型脑子里的"记忆"打起来——AAAI 2026 这篇用信息瓶颈给出了一个有理论支撑的解法
SubGCache 论文解读:子图级 KV 缓存把图谱 RAG 推理首字延迟砍到原来的 1/6
Attention 自己就是检索器:NVIDIA 把外挂 retriever 拆了,多跳 QA 反而更强
多跳RAG总在桥接事实上栽跟头:NYU这套AdaGATE把证据装配当成了"修补题"
扔掉向量库,让 Agent 直接 grep 原始语料库——一篇打破检索神话的论文
S2G-RAG:让 RAG 学会回答"我到底还差什么"——HotpotQA 上 F1 暴涨 13 个点
CodeRAG:把"检索什么"和"重排什么"都想清楚——仓库级代码补全的一次系统性重做
TurboRAG:把RAG的Prefill搬到离线,TTFT直接快9.4倍
你的检索器其实在"假装"听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA
当知识图谱变成"黑箱":BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞
腾讯广告的RAG实战:如何用强化学习干掉92.7%的URL幻觉?
当RAG的"压缩包"爆了:如何检测Token溢出?
金融RAG的幻觉难题:用原子知识单元让模型"说实话"
推理与思维链 (37)
答案已经对了,模型却还在絮叨——这段"多说的"才是 SFT 数据真正的毒
3%的注意力头,扛起了LLM整个演绎推理过程——一篇可解释性论文的硬核拆解
进化搜索的算力分配重构:从深度-广度到多臂老虎机
BES:别只让模型往前猜,倒着拆目标再重组答案
并行推理别再各想各的:CPT 让多条思维链学会“共享情报”
把"40000层迭代"写成吸引子收敛:CMU 团队让 5M 小模型在 Sudoku-Extreme 上从 2.6% 干到 99.8%
CoT-SAE 论文解读:用稀疏自编码器看穿"思维链是否真在思考"
Reasoning-SAE 论文解读:用稀疏自编码器抓住 DeepSeek-R1 的"思考时刻"
Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层"心理调节器"
用数学训出来的 PRM,跑到代码任务上还能涨 4 个点——这事让我对"PRM 是不是被高估了"重新想了一遍
UnPRM:用"不确定性"省 60% PRM 标注成本,再回头修一遍多数投票
三个推理模型轮流接力解一道题,蒸出来的学生反超老师
Many-Shot CoT-ICL:把上下文窗口当课程表来排,几何任务直接拉高 5.42 个点
当模型已经"想明白"了还在絮叨——这篇论文教你怎么让它闭嘴
ThinC:让模型用代码"思考",而不是用代码"验证"
CODI:让模型把思维链"塞"进连续空间,6 个隐向量顶 20 个 token
别让模型「想太多」:中国联通团队把推理长度做成难度自适应——DAST 论文精读
让模型"故意答错",反而把验证器训得更准——逻辑推理上的 ORM + Test-Time Scaling 实验
让奖励模型先"想清楚"再打分:R-PRM 把 PRM 从打分器升级成推理者
RethinkMCTS:让MCTS会"反省",把走歪的思路改对再继续搜代码
让 o1 学会自己上网查资料:Search-o1 给大推理模型补上的那块知识短板
LLM能从零重新发明基础算法吗?遗忘后再发明,最强模型成功率90%
Reasoning Graphs:让RAG Agent不再"翻车"的证据图谱
OPD不是万能药:大模型在线策略蒸馏什么时候能work,什么时候一定崩
推理模型其实是"先决定,再编理由"?这篇论文用探针抓了个现行
ThinkTwice: 让模型学会"做完题再检查一遍",推理+自纠错联合训练只加3%开销
推理偷工减料?上下文是如何悄悄"缩短"大模型思考过程的
自蒸馏让大模型变"自信"了,推理能力却崩了——不确定性才是推理的命脉
递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22%
ReAct:让大模型学会"边想边干"的智能体范式
你以为大模型在"思考"?其实它只是在努力"回忆"
图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍
9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题
PRISM:用过程奖励模型为DeepThink系统装上"导航仪"
当AI客服犯了错,怎么在不动系统的情况下"洗脑"它纠正?——ReIn: 对话错误恢复的推理植入
SAGE:你的推理模型其实知道何时该停下来,只是你没让它说
Chain of Mindset:让AI学会像人一样"切换脑回路"
记忆系统 (24)
MemTrain:不靠下游标注,光啃维基百科就把"记忆代理"训出来了
让大模型也学会"睡一觉":Google 把 NREM 和 REM 直接搬进了 LLM 训练协议
FluxMem:当智能体的记忆不再是"死档案",而是一张活着的网
MemForest:当 Agent 的"记忆"被当成数据库问题来做,写吞吐量直接 6 倍
该不该把这条会话存进 Agent 记忆?这篇论文说:先看是哪个用户
长程智能体不是缺上下文,而是缺会翻旧账的记忆
EvolveMem:让 Agent 的记忆系统自己改自己的检索配置
δ-mem:一个 8×8 的矩阵,能给 LLM 当"长期记忆"吗?
当 LLM 不断"总结过去的经验",记忆反而变坏:Agentic Memory 的隐性陷阱
三套 Prompt 互相甩锅,怎么调?三星 × GMU 把记忆 Agent 的 APO 做成可落地闭环
AWS 这篇论文让 LLM Agent 的记忆"自己长出索引",RAG Recall 暴涨 34%
异质任务下的记忆提取:为什么单一Prompt就是搞不定,得"先聚类再演化"
Memanto:当所有人都在堆图谱时,他们用一颗朴素的向量索引把SOTA又拿回来了
对话AI的记忆困境:什么时候该记,什么时候该忘?
Coding Agent的记忆能跨域迁移吗?这篇论文给出了让人信服的答案
FileGram:让AI助手"记住"你怎么管文件,而不只是记住你说了什么
LightThinker++:让大模型学会"记笔记",推理token砍掉70%还能涨点
MemSifter:用4B小模型给大模型当"记忆管家",检索又快又准
给Agent装上"大脑"有多难?一篇Survey揭示了智能体记忆系统的残酷现实
MemFly:当智能体的记忆学会了"断舍离"——信息瓶颈驱动的即时记忆优化
别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记
冥想盆范式:让大模型学会管理自己的上下文
Zep:时间知识图谱驱动的智能体记忆架构——让 AI 真正"记住"你
A-Mem:让LLM智能体拥有"会思考"的记忆系统
评估与基准 (44)
AutoLab:把模型扔进 12 小时的"科研闭环",看谁还能坚持下去
你的多模态大模型,其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开
Harness 更新 ≠ Harness 受益:把自进化 Agent 的两种能力彻底拆开
Entity-Collision:把 Agent 记忆系统的检索增益拆开归因
当AI智能体学会"一心多用":AsyncTool揭示大模型异步工具调用的真实水平
你以为在测 CoT 忠实度?这篇论文说现有指标基本都接近瞎猜
搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆?
LLM 记忆系统也会“甩锅”:MemTrace 把错误追到具体操作
25% 的 Agent 技能其实在帮倒忙:一篇把"技能生命周期"拆到底的系统研究
别只盯着最终答案:Agent 幻觉真正危险的地方在轨迹里
给Claude 3.7一个GitHub仓库让它干活,54个真实任务它只做对了48%
别再只看准确率了:用认知负荷理论给工具智能体画一张"能力边界图"
答对了题,却抄错了出处——CiteVQA 把多模态大模型的"归因幻觉"摆上了台面
给Agent记忆系统泼一盆冷水:长时程多目标干扰下,所有主流方案平均只有27.9%
π-Bench:当 AI 助理被要求"猜你想说但没说的话",9 个旗舰模型集体翻车
LLM 智能体的记忆「悄悄过期」问题:最强模型也只能拿 55 分
BRIGHT-Pro 与 RTriever:把"推理密集型检索"从静态榜单拉回 Deep Research 真实战场
Claw-Eval-Live:连 Opus 都过不了 70%,工作流 Agent 离"自动化"还差一个数量级
AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难?
SimpleTES:用开源 gpt-oss 把 LASSO 提速 2 倍、量子门数砍掉 24.5%——靠的不是更强的模型,而是更多的"评估"
给Agent装"持续学习"开关:写技能容易,修技能难——SkillFlow揭开11个前沿模型的真实差距
当最强Agent也只能做对45%的任务:CocoaBench揭开统一数字智能体的真实水平
LM Agent的探索和利用居然可以被量化,而且探索才是命门
你的AI助手会"翻旧账"吗?ClawArena告诉你,绝大多数Agent在信息变化面前一塌糊涂
Claw-Eval: 你以为你的 Agent 很安全?44% 的安全违规被漏检了
AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon
AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示
当AI学会"欺骗"裁判:推理型LLM评判员的双刃剑效应
BeyondSWE 论文解读:当前代码智能体能否超越单仓库修 Bug?
Legal RAG Bench:当检索拖了后腿,大模型再聪明也白搭
UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗?
OmniGAIA:迈向原生全模态AI智能体——基准测试与基础模型的全面突破
当 AI 研究员学会了"搜索",搜索引擎该怎么配合?——深度研究中的文本排序再审视
AD-Bench:当LLM Agent遇上真实广告投放,最强模型也只能拿69分
GPT-5.1 也只拿了 69 分?妙问团队三篇论文揭秘:大模型在真实业务中翻车的真相与破局之道
DeepImageSearch:当图像检索需要"侦探式推理",现有AI还差多远?
当RAG遇上知识图谱:一个让LLM"开卷考试也翻车"的新基准
InnoEval:当AI也组了一个"评审委员会",它比人类审稿人更靠谱吗?
ResearchGym:当最强AI被扔进真实科研战场,它们交出了怎样的答卷?
给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区
GISA:当最好的AI搜索助手也只有19%准确率
让大模型学会"教人做事":How2Everything从98万网页中挖出35万份操作指南
当Agent遇到"上下文腐烂":LOCA-bench揭示长上下文的真相
当AI学会"搜论文",传统搜索算法反而赢了?——SAGE基准测试揭示的反直觉发现
模型架构与训练 (37)
先把烂轨迹扔了,再给好 token 加权——FiRe-OPD 把 OPD 的优化粒度重新做了一遍
KVarN:方差归一化让 2-bit KV 缓存扛住长链推理
教师不给 logit 也能搞 on-policy 蒸馏?OmniOPD 用 chunk 级语义投票把 Claude/Gemini 拉进了蒸馏管线
TrOPD 论文解读 信任区域在线策略蒸馏
Draft-OPD:让推测解码的草稿模型,从"自己犯的错"里学习
PEFT 不只是省钱的小补丁——它能撑起百万级人格模型
LoRA 到底能记住多少东西?一个优雅的幂律定律告诉你答案
单向量 Embedding 模型其实"早就会"多向量检索——SMART 把被压扁的隐藏状态用起来了
给投机解码的草稿模型加一个"耳麦":从验证器隐藏态算 steering 向量,接受 token 数最多多 35 个百分点
KV Cache 还能再砍一刀:SparK 在通道维度上做了一件被忽略多年的事
ToolACE-R:让模型自己决定训练吃什么、推理时改几遍
TransMamba:把 Transformer 和 Mamba 塞进同一套参数里,按 token 长度自由切换
长前缀的第三条路:把注意力"提前算好存起来",推理时直接查表
EndPrompt:短序列也能撑起 64K——给 LLM 长上下文塞一个"终点路标"
全注意力的反击:百步训练把稠密注意力"翻译"成稀疏,1M 上下文 prefill 提速 9.36 倍
OPD 为什么这么快?腾讯混元从参数动力学给了一个让人服气的答案
把 7B 视觉语言模型从 32K 拉到 128K,他们只花了 50 亿 token——还顺便外推到了 512K
给智能体一张"地图":PEEK 把长上下文里反复重学的那部分缓存了下来
Agentic Architect:让 LLM 帮你"进化"出 CPU 微架构——预取器跑赢 SMS 21%
Fast-Slow Training:让 LLM 的"参数"和"上下文"一起学
Ψ-RAG:把 Tree-RAG 从"单文档玩具"推到"语料库级跨文档多跳"——比 RAPTOR 强 25.9%、比 HippoRAG 2 强 7.4%
UniPrefill:当稀疏注意力遇到混合架构,长上下文 Prefill 该怎么加速?
UniSD:不靠"更强的老师",LLM 能不能自己教自己变强?
TokenSelect:把 KV Cache 的"块级粗筛"砸碎到 Token 级,128K→1M 上下文加速 23.84 倍
ShadowPEFT:把 LoRA 的"分散低秩"换成共享影子网络,顺便让 PEFT 模块可拆可装
DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的"算力性价比"被重新定义
Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解
不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径
TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课
BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍?
用λ演算驯服LLM的递归:8B小模型干到70B的表现
部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化
blocks: 历史 block 表示 [b0, b1, ..., b(n-1)]
IndexCache:跨层索引复用,让稀疏注意力推理再快一倍
Avey-B:抛弃注意力机制,用"分拣员+处理器"重新定义双向编码器
GLM-5:当大模型学会"自己写代码",从Vibe Coding到Agentic Engineering的跨越
MiniCPM-SALA:让Transformer在百万token下跑起来
AI 科研 (12)
论文不再线性跑流水线:AutoResearchClaw 用辩论、自愈和跨次进化把 AI 科学家推上一个台阶
ARIS:当你怀疑 AI 在"看起来很对"地胡说八道——上海交大开源的跨模型对抗科研 Harness
把"提想法-写代码-跑实验-改下一版"整个交给Agent:CMU这篇把ML自动研究跑成了一条可审计的轨迹
Faithful Uncertainty:把"幻觉"重新定义为"自信地说错"——Google 在告诉你下一步该怎么走
NanoResearch:研究自动化跑得起来不算赢,跑出"你这个研究员要的东西"才算赢
ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?
找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架
AI能自主做临床科研了吗?港中文&斯坦福联手造出第一个医学AI科学家
当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了
MiroThinker-1.7 & H1:搜索 Agent 的天花板不在"搜得多",而在"每步都靠谱"
EvoScientist:让AI科学家学会"长记性"——多智能体进化框架如何实现端到端科研自动化
🔬 Autoresearch 深度解读:Karpathy 的"AI 自主科研"到底有没有戏?
工程实践与 Coding Agent (22)
用合成数据喂出来的终端智能体,凭什么只用 1 万条轨迹就能打平 50 万条的效果?
AstraFlow:把Agentic RL训练系统拆开重写,2.7×加速背后是一套被忽视的抽象
42 位作者联手发声:代码不再只是 Agent 的"输出",而是它赖以生存的"操作系统"
EnvFactory:85 个环境如何打掉 500+ 的工具调用 RL 数据工厂
把多跳 RAG 写成一段 Python 程序:当推理过程从"自由发挥"变成"编译器说话"
Think-Search-Patch:让 7B-14B 模型把仓库级 bug 修出 GPT-4 三倍的命中率
Agent Coding 测试时算力怎么花?Meta 给出了一个反直觉的答案:先做"摘要"再做"选拔"
上下文永远不够用:SLIDERS 把长文档问答从"读完所有 token"换成"查数据库"
AiScientist:扔掉对话接力棒,用文件总线撑起23小时自主科研
CodeTracer:给AI代码智能体装上"黑匣子",故障追溯一步到位
当AI编码Agent被"焊死"在产品里,怎么把它的核心引擎拆出来?
Anthropic Managed Agents: 把"脑"和"手"拆开,Agent 基础设施才算真正成熟
不调模型调"脚手架":斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂
用2B小模型给Coding Agent的工具输出"挤水分":砍掉92%的token,召回率反而更高
30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)
上下文撑破之前,Claude Code 如何"清理记忆"——源码精读(二)
Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%
OpenSWE 论文解读:147 万美元打造最大开源 SWE 训练环境,45k Docker 环境助力代码 Agent 登顶 SWE-bench
Claude Code 玩法大全:从入门到上瘾的终极指南
Harness Engineering 深度解读:AI Agent 时代的「缰绳与马鞍」
Qwen3-Coder-Next:80B参数只激活3B,如何用"小代价"训出最强编程智能体
扒开 Claude Code 的底裤:为什么你的 AI Agent 总是半途而废?
其他 (4)
两万真实会话揭示 Coding Agent 七大失配模式:开发者-Agent 错位的大规模实证
别总找更强老师了,让推理模型从错误里爬出来
大模型工具调用的"知行差距":它知道该调用工具,但就是不动手
HeavySkill 论文解读 重思考即智能体内化技能
2026 年 6 月
AutoLab:把模型扔进 12 小时的"科研闭环",看谁还能坚持下去
给 reward hacking 装上一面"放大镜":rubric-based RL 的可控复现环境
先把烂轨迹扔了,再给好 token 加权——FiRe-OPD 把 OPD 的优化粒度重新做了一遍
你的多模态大模型,其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开
MMG2Skill:把网上现成的多模态攻略,喂成 Agent 自我进化的技能包
MemTrain:不靠下游标注,光啃维基百科就把"记忆代理"训出来了
ThoughtFold:让推理模型把"想得太多"的废话自己折叠掉
自动 harness 在线上部署越跑越烂?这篇论文把"进化"和"适应"两个损失彻底拆开了
答案已经对了,模型却还在絮叨——这段"多说的"才是 SFT 数据真正的毒
KVarN:方差归一化让 2-bit KV 缓存扛住长链推理
多域RL训练完Math就忘?这篇论文给出了"局部扰动"层面的解释
教师不给 logit 也能搞 on-policy 蒸馏?OmniOPD 用 chunk 级语义投票把 Claude/Gemini 拉进了蒸馏管线
让大模型也学会"睡一觉":Google 把 NREM 和 REM 直接搬进了 LLM 训练协议
TrOPD 论文解读 信任区域在线策略蒸馏
Draft-OPD:让推测解码的草稿模型,从"自己犯的错"里学习
RL 训练时模型已经走错了,还非要让它写完 8192 个 token?阿里 Tongyi Lab 这篇 ESPO 把失败 rollout 提前掐了
Harness-1:把"思考过程"写到外面去——一个 20B 搜索智能体如何打过 Opus 和 GPT-5
让 Agent 自己长记忆:用代码覆盖率当奖励,把"探索"和"记住"绑在一起训
观测掩码不是免费午餐:搜索智能体的 Regime Map 与机制拆解
PEFT 不只是省钱的小补丁——它能撑起百万级人格模型
失败一整条轨迹,到底该怪哪一步?SkillAdaptor 用步级归因把 Agent 的技能库改对了
让 AI 自己当数据工程师:从零自主策划训练数据,把学生模型涨了 57.29%
把一个"懂事的同事"打包成 Skill:从异构痕迹蒸馏可检查、可修正、可回滚的 AI 技能
GrepSeek:让搜索智能体扔掉向量索引,直接用 grep 翻语料
Harness 更新 ≠ Harness 受益:把自进化 Agent 的两种能力彻底拆开
长上下文 RL 训练数据该怎么造?让搜索 Agent 帮你筛干扰项
SAAS:让 Agent 学会"我自己其实知道"——用自感知 RL 治理过度搜索
不要再卷神经验证器了:用维基百科"共现次数"当奖励,事实问答RL训练快 8 倍
3%的注意力头,扛起了LLM整个演绎推理过程——一篇可解释性论文的硬核拆解
ROSD:让自蒸馏去"改错",而不是去"抄答案"
让 8B 小模型学会"我不知道":TIAR 用 GRPO 轨迹给弃权 reward 动态加权
2026 年 5 月
进化搜索的算力分配重构:从深度-广度到多臂老虎机
两万真实会话揭示 Coding Agent 七大失配模式:开发者-Agent 错位的大规模实证
Entity-Collision:把 Agent 记忆系统的检索增益拆开归因
Focal Reward:当 RL 把"容易拿分的维度"刷爆了,剩下的硬骨头怎么办
TCP-MCP:把多 Agent 系统的 prompt 和拓扑当作"基因组"一起进化
Agent训练越练越爱乱调工具?这篇论文让模型自己学会"什么时候该闭嘴查工具"
当AI智能体学会"一心多用":AsyncTool揭示大模型异步工具调用的真实水平
BES:别只让模型往前猜,倒着拆目标再重组答案
你以为在测 CoT 忠实度?这篇论文说现有指标基本都接近瞎猜
并行推理别再各想各的:CPT 让多条思维链学会“共享情报”
多奖励 RL 训练崩了?阿里云这篇 DVAO 给了 GRPO 一个真正干净的多目标解
别总找更强老师了,让推理模型从错误里爬出来
把"40000层迭代"写成吸引子收敛:CMU 团队让 5M 小模型在 Sudoku-Extreme 上从 2.6% 干到 99.8%
FluxMem:当智能体的记忆不再是"死档案",而是一张活着的网
HINT-SD:长程 Agent 训练里,"在哪里反馈"比"反馈多稠密"更值钱
用合成数据喂出来的终端智能体,凭什么只用 1 万条轨迹就能打平 50 万条的效果?
搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆?
MUSE-Autoskill:把 Agent 技能从"一次性产物"管成"有生命周期的资产"
MemForest:当 Agent 的"记忆"被当成数据库问题来做,写吞吐量直接 6 倍
LLM 记忆系统也会“甩锅”:MemTrace 把错误追到具体操作
LoRA 到底能记住多少东西?一个优雅的幂律定律告诉你答案
该不该把这条会话存进 Agent 记忆?这篇论文说:先看是哪个用户
Agent的"空闲时间"被浪费了——ProAct想用它干点正事
8K 条合成任务,把开源深度研究 Agent 拉到闭源水平 —— QUEST 论文细读
长程智能体不是缺上下文,而是缺会翻旧账的记忆
单向量 Embedding 模型其实"早就会"多向量检索——SMART 把被压扁的隐藏状态用起来了
技能到底该"记住"还是"带着"?Skill0.5 给出了一个折中但有效的答案
25% 的 Agent 技能其实在帮倒忙:一篇把"技能生命周期"拆到底的系统研究
把 Agent 的 Skill 当参数来训:SkillOpt 让一个 Markdown 文件涨 23 个点
别只盯着最终答案:Agent 幻觉真正危险的地方在轨迹里
密集检索凭什么给高分?Xetrieval 用稀疏特征把黑箱掰开了
多Agent投票投出个寂寞?这篇AAAI 2026把冷战时期的情报学方法搬了进来
CoT-SAE 论文解读:用稀疏自编码器看穿"思维链是否真在思考"
长篇小说推理卡壳怎么办?ComoRAG 让 RAG 学会"想到一半再去翻书"
给投机解码的草稿模型加一个"耳麦":从验证器隐藏态算 steering 向量,接受 token 数最多多 35 个百分点
给Claude 3.7一个GitHub仓库让它干活,54个真实任务它只做对了48%
LogicRAG:把图谱从离线建变成推理时即时拼,GraphRAG 这条路是不是走偏了
RAG-R1:让模型自己决定要搜几次,把 RAG 从串行链改成自适应多查询并行
RALM 真的"知道自己不知道"吗?AAAI 2026 揭开检索增强模型的过度拒答陷阱
Reasoning-SAE 论文解读:用稀疏自编码器抓住 DeepSeek-R1 的"思考时刻"
KV Cache 还能再砍一刀:SparK 在通道维度上做了一件被忽略多年的事
当 RAG 检索到的内容跟模型脑子里的"记忆"打起来——AAAI 2026 这篇用信息瓶颈给出了一个有理论支撑的解法
ToolACE-R:让模型自己决定训练吃什么、推理时改几遍
别再只看准确率了:用认知负荷理论给工具智能体画一张"能力边界图"
TransMamba:把 Transformer 和 Mamba 塞进同一套参数里,按 token 长度自由切换
Conformal CPO:把保形预测嵌入 LLM Agent 编排策略,可证明可靠性 + 30% 成本节省
DEPO:把"少 token + 少步骤"同时塞进 KTO 的偏好优化
一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的"独白"改成了"群聊"
DeCoRL:把推理链拆成"乐团合奏"——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作
GenPRM:让 1.5B 的过程奖励模型,靠"边写边推理边跑代码"打赢 GPT-4o
LLMdoctor:用小模型 doctor 在 token 级别给冻结的 patient 大模型做"对齐处方"
Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层"心理调节器"
Length Bias Causal 论文解读:用因果反事实拆掉 RLHF 奖励模型的"啰嗦偏好"
MEML-GRPO 论文解读:异构多专家互学习破解 RLVR 的奖励稀疏
PPPO 论文解读:前缀决定推理,RLVR 只优化开头就够了
用数学训出来的 PRM,跑到代码任务上还能涨 4 个点——这事让我对"PRM 是不是被高估了"重新想了一遍
SubGCache 论文解读:子图级 KV 缓存把图谱 RAG 推理首字延迟砍到原来的 1/6
UnPRM:用"不确定性"省 60% PRM 标注成本,再回头修一遍多数投票
Agent 轨迹的"监督盲区":把多轮工具调用编译成长上下文训练数据,30B 干到 235B
ActGuide-RL:把 SFT 冷启动换成"动作引导"的智能体 RL 新范式
教蒸馏教师"少看一点",反而学生学得更好——LLM 推理自蒸馏的一个隐藏旋钮
AstraFlow:把Agentic RL训练系统拆开重写,2.7×加速背后是一套被忽视的抽象
长前缀的第三条路:把注意力"提前算好存起来",推理时直接查表
论文不再线性跑流水线:AutoResearchClaw 用辩论、自愈和跨次进化把 AI 科学家推上一个台阶
答对了题,却抄错了出处——CiteVQA 把多模态大模型的"归因幻觉"摆上了台面
42 位作者联手发声:代码不再只是 Agent 的"输出",而是它赖以生存的"操作系统"
三个推理模型轮流接力解一道题,蒸出来的学生反超老师
2011 年的 DAgger 被搬回来训 SWE 智能体,4B 模型干翻一票 8B 系统
EndPrompt:短序列也能撑起 64K——给 LLM 长上下文塞一个"终点路标"
EnvFactory:85 个环境如何打掉 500+ 的工具调用 RL 数据工厂
EvolveMem:让 Agent 的记忆系统自己改自己的检索配置
全注意力的反击:百步训练把稠密注意力"翻译"成稀疏,1M 上下文 prefill 提速 9.36 倍
30B 小模型拿 IMO 金牌:SU-01 把"会做题"和"会证明"拆开来打
HAGE:让 Agent 的记忆图自己学会该走哪条边
把 Agent 的"技能"从文本提示升级成可执行护栏:HASP 框架到底解决了什么
工业质检领域的 MLLM 卡在哪了?这篇论文给了一个把工具调用塞进 RL 的解法
OPD 为什么这么快?腾讯混元从参数动力学给了一个让人服气的答案
给Agent记忆系统泼一盆冷水:长时程多目标干扰下,所有主流方案平均只有27.9%
把 7B 视觉语言模型从 32K 拉到 128K,他们只花了 50 亿 token——还顺便外推到了 512K
当 Prompt 优化器在 6 个任务里 4 个原地踏步:MOCHA 用切比雪夫退火给 Agent 技能找出路
Many-Shot CoT-ICL:把上下文窗口当课程表来排,几何任务直接拉高 5.42 个点
MetaAgent-X:让设计器和执行器一起进化,自动 MAS 的天花板被端到端 RL 撞穿了
一篇综述把多智能体的"协作—归因—自演化"串成一条因果链:LIFE 框架的意义
用策略提示把模型推出舒适区:NudgeRL 让 8 个 rollout 跑赢 64 个
给智能体一张"地图":PEEK 把长上下文里反复重学的那部分缓存了下来
当模型已经"想明白"了还在絮叨——这篇论文教你怎么让它闭嘴
π-Bench:当 AI 助理被要求"猜你想说但没说的话",9 个旗舰模型集体翻车
把多跳 RAG 写成一段 Python 程序:当推理过程从"自由发挥"变成"编译器说话"
RLVR 训练只跑前 15% 步,剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文
Attention 自己就是检索器:NVIDIA 把外挂 retriever 拆了,多跳 QA 反而更强
SDAR:让每个 token 自己决定蒸馏强度——多轮 Agent RL 的一次"非对称信任"修补
LLM 智能体的记忆「悄悄过期」问题:最强模型也只能拿 55 分
SkillsVote:当智能体技能库长到百万级,怎么不让它把Agent带歪?
Solvita:四智能体闭环 + 可训练知识网络,让大模型在 Codeforces 打到 Legendary Grandmaster
大模型工具调用的"知行差距":它知道该调用工具,但就是不动手
不要任何人工标注,PRM 也能训出来——EPFL 这套 uPRM 把"+/-"两个 token 玩出花了
不要再给Agent硬塞PRM了:百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了
ARIS:当你怀疑 AI 在"看起来很对"地胡说八道——上海交大开源的跨模型对抗科研 Harness
多跳RAG总在桥接事实上栽跟头:NYU这套AdaGATE把证据装配当成了"修补题"
Agentic Architect:让 LLM 帮你"进化"出 CPU 微架构——预取器跑赢 SMS 21%
把"提想法-写代码-跑实验-改下一版"整个交给Agent:CMU这篇把ML自动研究跑成了一条可审计的轨迹
BRIGHT-Pro 与 RTriever:把"推理密集型检索"从静态榜单拉回 Deep Research 真实战场
Claw-Eval-Live:连 Opus 都过不了 70%,工作流 Agent 离"自动化"还差一个数量级
Ctx2Skill:让模型读完一份文档就"自己出题考自己"——无反馈下的 skill 自演化
扔掉向量库,让 Agent 直接 grep 原始语料库——一篇打破检索神话的论文
δ-mem:一个 8×8 的矩阵,能给 LLM 当"长期记忆"吗?
Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊
Fast-Slow Training:让 LLM 的"参数"和"上下文"一起学
Faithful Uncertainty:把"幻觉"重新定义为"自信地说错"——Google 在告诉你下一步该怎么走
当 LLM 不断"总结过去的经验",记忆反而变坏:Agentic Memory 的隐性陷阱
当工具库膨胀到4万个,Agent该怎么"找工具"?UCLA这篇FitText把检索塞进了推理循环
G-Zero:开放域任务里,没有 verifier 也能跑出 self-play 的奇迹?
HeavySkill 论文解读 重思考即智能体内化技能
LPO:把 GRPO 的"隐式投影"翻到台面上——RLVR 的几何统一视角
LenVM:把"还剩多少 token"建模成 value——给 LLM 装上了一个 token 级长度刻度尺
往 Prompt 前面拼一段 Lorem 乱码,GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的
NanoResearch:研究自动化跑得起来不算赢,跑出"你这个研究员要的东西"才算赢
多智能体 LLM 的 RL 该往哪走?这篇 84 篇综述把"编排轨迹"作为新单元
Ψ-RAG:把 Tree-RAG 从"单文档玩具"推到"语料库级跨文档多跳"——比 RAPTOR 强 25.9%、比 HippoRAG 2 强 7.4%
RubricEM:当 Deep Research Agent 没有 ground truth,RL 还怎么训?
S2G-RAG:让 RAG 学会回答"我到底还差什么"——HotpotQA 上 F1 暴涨 13 个点
SEIF:让模型自己出题考自己——指令跟随能力的自演化训练
SLIM:Agent 的"技能仓库"不应该一味变大或变小——技能要有生命周期
SSL:把 SKILL.md 拆成三层结构化图谱——技能检索 MRR 涨 8 个点、风险评估 F1 涨 10 个点
Skill1:用一个奖励信号,把 Agent 的"选、用、攒"三件事一起练出来
SkillOS:与其训练 Agent 自己变强,不如训练一个专门管"技能库"的小模型
让 Agent 先「想清楚再动手」:StraTA 给长程 Agent RL 加上一层策略抽象
TMAS:当并行多路推理不够用,怎么让多 Agent 真正"协同"起来?
ThinC:让模型用代码"思考",而不是用代码"验证"
UniPrefill:当稀疏注意力遇到混合架构,长上下文 Prefill 该怎么加速?
UniSD:不靠"更强的老师",LLM 能不能自己教自己变强?
Web2BigTable:用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍
多目标文本生成里,权重别再手写:AW-GRPO 把 GRPO 从「偏科」拉回正轨
三套 Prompt 互相甩锅,怎么调?三星 × GMU 把记忆 Agent 的 APO 做成可落地闭环
CODI:让模型把思维链"塞"进连续空间,6 个隐向量顶 20 个 token
CodeRAG:把"检索什么"和"重排什么"都想清楚——仓库级代码补全的一次系统性重做
别让模型「想太多」:中国联通团队把推理长度做成难度自适应——DAST 论文精读
决策和执行拆开训:一篇把 Agentic RAG 写成 MDP、再用剪枝把数据造快 6 倍的工业界论文
把 RL Agent 直接扔进真实互联网:DeepResearcher 撕开了 RAG 训练的舒适区
好过程无需好答案:把 Agent 的规划和总结拆开训,工业 RL 才走得通
GRPO-LEAD:让推理模型说人话——给 GRPO 加上长度、罚分和难度三味药
训RAG Agent老犯"搜了又搜"和"乱搜一气"两个毛病?LeTS给出了一个不靠人工标注的解法
让模型"故意答错",反而把验证器训得更准——逻辑推理上的 ORM + Test-Time Scaling 实验
不动模型、没有标签,让 Agent 在测试时把准确率干到 93.94%——EMNLP 2025 这篇 Schema Mapping 论文挺有意思
AWS 这篇论文让 LLM Agent 的记忆"自己长出索引",RAG Recall 暴涨 34%
NOVER:把 R1-Zero 的"激励训练"从数学题搬到任意文本任务,靠的不是更大的 verifier,而是一个 perplexity
代码生成里 Process Reward 第一次被认真验证:PRLCoder 把"行级别"奖励喂给 PPO,难题 Pass@80 涨了 9.6 个点
PPO 不是 RLHF 的最优解:Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名
让奖励模型先"想清楚"再打分:R-PRM 把 PRM 从打分器升级成推理者
RethinkMCTS:让MCTS会"反省",把走歪的思路改对再继续搜代码
Agent别再"想都不想就动手"了:SAND教大模型先在脑子里把候选动作走一遍
把 Reward Model 拆成五个"专科医生"——SRM 用工程套路在 RM 上又榨了 8 个点
让 o1 学会自己上网查资料:Search-o1 给大推理模型补上的那块知识短板
部署即固化的Agent,怎么在线学新规则?ARIA给了一个能落地的答案
Think-Search-Patch:让 7B-14B 模型把仓库级 bug 修出 GPT-4 三倍的命中率
TokenSelect:把 KV Cache 的"块级粗筛"砸碎到 Token 级,128K→1M 上下文加速 23.84 倍
TurboRAG:把RAG的Prefill搬到离线,TTFT直接快9.4倍
WebAgent-R1:8B小模型在网页操作上把o3拉下马,多轮RL把分从8.5%硬拉到44.8%
让 Web Agent 自学不停滞——WebEvolver 用一个共演化世界模型撑起多步 Look-Ahead
iTool:合成数据加越多越没用?哈工大+华为用 MCTS 找出"那一小片错",8B 反超 GPT-4o
2026 年 4 月
Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读
Agent-World:当智能体训练终于不用再"假装"在跟世界打交道
AgentSPEX:当 Agent 框架开始把"控制流"从 Python 里抠出来
AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难?
异质任务下的记忆提取:为什么单一Prompt就是搞不定,得"先聚类再演化"
DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压
你的检索器其实在"假装"听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA
GFT:把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍
强LLM不一定是好"优化器":决定胜负的不是参数量,而是"局部精修"的能力
Memanto:当所有人都在堆图谱时,他们用一颗朴素的向量索引把SOTA又拿回来了
Too Correct to Learn:当模型"答得太对"时,GRPO反而学不动了
NPO:让"未来的自己"教会"现在的自己",RLVR走出Q/V困局
Agent Coding 测试时算力怎么花?Meta 给出了一个反直觉的答案:先做"摘要"再做"选拔"
8个样本就能涨32个点?RLVR的"奇迹"为什么换到Llama身上就不复现了
上下文永远不够用:SLIDERS 把长文档问答从"读完所有 token"换成"查数据库"
ShadowPEFT:把 LoRA 的"分散低秩"换成共享影子网络,顺便让 PEFT 模块可拆可装
SimpleTES:用开源 gpt-oss 把 LASSO 提速 2 倍、量子门数砍掉 24.5%——靠的不是更强的模型,而是更多的"评估"
给Agent装"持续学习"开关:写技能容易,修技能难——SkillFlow揭开11个前沿模型的真实差距
终端Agent的"上下文垃圾场"清理工:TACO 用一个不停进化的规则池替代手写 prompt
测试时训练为什么总崩?TEMPO 用 EM 把缺失的那一步补回来
撕掉"自进化"的伪装:让Agent在没人喂奖励的时候,自己摸清楚一个陌生世界
DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的"算力性价比"被重新定义
AgentSwing:长时Web Agent的上下文管理,为什么"一条路走到黑"行不通
AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式
AiScientist:扔掉对话接力棒,用文件总线撑起23小时自主科研
当最强Agent也只能做对45%的任务:CocoaBench揭开统一数字智能体的真实水平
CodeTracer:给AI代码智能体装上"黑匣子",故障追溯一步到位
从推理到智能体:LLM强化学习中的信用分配,到底难在哪?
你以为你在用不同的数据集训练模型?谱系图告诉你:它们都是同一棵树上的枝条
LM Agent的探索和利用居然可以被量化,而且探索才是命门
GraSP:给Agent的技能加上因果图,多了反而更行
对话AI的记忆困境:什么时候该记,什么时候该忘?
KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平
LLM能从零重新发明基础算法吗?遗忘后再发明,最强模型成功率90%
30 GPU小时训出AIME 69.9%:Lightning OPD把在线蒸馏搬到了离线
记忆增强的动态奖励塑形:MEDS如何让LLM不再"重蹈覆辙"
Coding Agent的记忆能跨域迁移吗?这篇论文给出了让人信服的答案
Reasoning Graphs:让RAG Agent不再"翻车"的证据图谱
OPD不是万能药:大模型在线策略蒸馏什么时候能work,什么时候一定崩
SPPO:别再逼Critic逐token猜了——序列级建模一招解决长链推理信用分配
当AI编码Agent被"焊死"在产品里,怎么把它的核心引擎拆出来?
TPO:把"该学什么"和"怎么学"拆开,梯度自己知道什么时候停
让Agent自动调模型:TREX用搜索树把LLM微调做成了下棋
$p1$:用2道题训练出的系统提示,凭什么碾压全量数据?
Anthropic Managed Agents: 把"脑"和"手"拆开,Agent 基础设施才算真正成熟
ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?
Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案
CORAL:当多个 AI Agent 学会自己搞进化,效率碾压传统搜索 3-10 倍
你的AI助手会"翻旧账"吗?ClawArena告诉你,绝大多数Agent在信息变化面前一塌糊涂
Claw-Eval: 你以为你的 Agent 很安全?44% 的安全违规被漏检了
FileGram:让AI助手"记住"你怎么管文件,而不只是记住你说了什么
AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么?
检索模型该为谁训练?当搜索的用户从人变成了AI Agent
LightThinker++:让大模型学会"记笔记",推理token砍掉70%还能涨点
一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了
不调模型调"脚手架":斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂
找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架
RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合
GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了
让代码模型学会"脑内编译":不执行代码也能验证对错?
训练时把技能"喂"进参数里,推理时不带小抄也能满分——Skill0的技能内化之路
SkillX:让 Agent 学会"传帮带",自动构建可复用的技能知识库
用2B小模型给Coding Agent的工具输出"挤水分":砍掉92%的token,召回率反而更高
Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解
推理模型其实是"先决定,再编理由"?这篇论文用探针抓了个现行
ThinkTwice: 让模型学会"做完题再检查一遍",推理+自纠错联合训练只加3%开销
不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径
AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon
推理偷工减料?上下文是如何悄悄"缩短"大模型思考过程的
30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)
上下文撑破之前,Claude Code 如何"清理记忆"——源码精读(二)
从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)
AI能自主做临床科研了吗?港中文&斯坦福联手造出第一个医学AI科学家
TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课
2026 年 3 月
AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示
BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍?
7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化
当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了
Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%
用λ演算驯服LLM的递归:8B小模型干到70B的表现
8B小模型干翻GPT-4o?用"信息不对称"让LLM自己查自己的幻觉
一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局
LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客
自蒸馏让大模型变"自信"了,推理能力却崩了——不确定性才是推理的命脉
当知识图谱变成"黑箱":BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞
4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化
让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈
不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent
MetaClaw:让 AI 智能体"边干边学"——双时间尺度持续进化框架
MiroThinker-1.7 & H1:搜索 Agent 的天花板不在"搜得多",而在"每步都靠谱"
部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化
递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22%
blocks: 历史 block 表示 [b0, b1, ..., b(n-1)]
从零搭一个 AI Agent 框架,到底需要理解什么?
OpenSWE 论文解读:147 万美元打造最大开源 SWE 训练环境,45k Docker 环境助力代码 Agent 登顶 SWE-bench
OpenSeeker:首个完全开源训练数据的搜索 Agent,单次 SFT 逆袭复杂工业管线
ReAct:让大模型学会"边想边干"的智能体范式
EvoScientist:让AI科学家学会"长记性"——多智能体进化框架如何实现端到端科研自动化
Agent Teams 深度解读:从 Claude Code 到多智能体协作的技术全景
🔬 Autoresearch 深度解读:Karpathy 的"AI 自主科研"到底有没有戏?
Claude Code 玩法大全:从入门到上瘾的终极指南
Harness Engineering 深度解读:AI Agent 时代的「缰绳与马鞍」
不需要SFT,仅靠上下文强化学习就能教会LLM使用工具
IndexCache:跨层索引复用,让稀疏注意力推理再快一倍
OpenClaw-RL 论文解读:用"下一状态信号"统一所有智能体的强化学习训练
OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么
💥 别再死磕 Prompt 和 Workflow 了!DeepSeek-R1 引爆的 Agent 端到端强化学习革命
你以为大模型在"思考"?其实它只是在努力"回忆"
强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证
🎯 用模拟器"养"出一个能打的搜索Agent:8B小模型如何在无限上下文下学会推理、追问与规划
当AI学会"欺骗"裁判:推理型LLM评判员的双刃剑效应
图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍
BeyondSWE 论文解读:当前代码智能体能否超越单仓库修 Bug?
9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题
4B小模型干翻70B?CoVe用约束验证让工具调用Agent数据效率提升18倍
Legal RAG Bench:当检索拖了后腿,大模型再聪明也白搭
MemSifter:用4B小模型给大模型当"记忆管家",检索又快又准
广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型
PRISM:用过程奖励模型为DeepThink系统装上"导航仪"
Qwen3-Coder-Next:80B参数只激活3B,如何用"小代价"训出最强编程智能体
SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站
UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗?
EMPO²:让LLM智能体学会"记笔记+开卷考"的强化学习框架
OmniGAIA:迈向原生全模态AI智能体——基准测试与基础模型的全面突破
当 AI 研究员学会了"搜索",搜索引擎该怎么配合?——深度研究中的文本排序再审视
Tool-R0:零数据也能训出工具调用高手——自进化LLM Agent的破局之路
2026 年 2 月
AD-Bench:当LLM Agent遇上真实广告投放,最强模型也只能拿69分
腾讯广告的RAG实战:如何用强化学习干掉92.7%的URL幻觉?
GPT-5.1 也只拿了 69 分?妙问团队三篇论文揭秘:大模型在真实业务中翻车的真相与破局之道
Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命
给Agent装上"大脑"有多难?一篇Survey揭示了智能体记忆系统的残酷现实
Avey-B:抛弃注意力机制,用"分拣员+处理器"重新定义双向编码器
DSDR:让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架
当AI客服犯了错,怎么在不动系统的情况下"洗脑"它纠正?——ReIn: 对话错误恢复的推理植入
SAGE:你的推理模型其实知道何时该停下来,只是你没让它说
SkillOrchestra:用"技能手册"取代强化学习,让AI智能体调度又好又省
扩散语言模型也能当搜索代理?DLLM-Searcher用"边想边搜"的并行范式干掉了自回归模型
DeepImageSearch:当图像检索需要"侦探式推理",现有AI还差多远?
GLM-5:当大模型学会"自己写代码",从Vibe Coding到Agentic Engineering的跨越
当RAG遇上知识图谱:一个让LLM"开卷考试也翻车"的新基准
InnoEval:当AI也组了一个"评审委员会",它比人类审稿人更靠谱吗?
MemFly:当智能体的记忆学会了"断舍离"——信息瓶颈驱动的即时记忆优化
Nanbeige4.1-3B:3B 参数的"六边形战士"是怎么炼成的
30B参数的搜索代理,凭什么在BrowseComp上和GPT-o3掰手腕?拆解REDSearcher的三段式训练框架
给大模型装一台"事实核查显微镜":RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉
ResearchGym:当最强AI被扔进真实科研战场,它们交出了怎样的答卷?
TAROT:测试驱动 + 能力自适应课程,让代码强化微调"因材施教"
当RAG的"压缩包"爆了:如何检测Token溢出?
Agent World Model:给智能体造一个"矩阵世界"——无限合成环境驱动的强化学习
Chain of Mindset:让AI学会像人一样"切换脑回路"
把简单题"拼"成难题:Composition-RL 如何让大模型越练越聪明
给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区
Dr. MAS:给多智能体LLM系统开一剂"镇静药"——稳定强化学习的理论与实践
体验式强化学习:让模型学会"吃一堑长一智"
GISA:当最好的AI搜索助手也只有19%准确率
让大模型学会"教人做事":How2Everything从98万网页中挖出35万份操作指南
InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架
当Agent遇到"上下文腐烂":LOCA-bench揭示长上下文的真相
别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记
MiniCPM-SALA:让Transformer在百万token下跑起来
金融RAG的幻觉难题:用原子知识单元让模型"说实话"
当AI学会"搜论文",传统搜索算法反而赢了?——SAGE基准测试揭示的反直觉发现
冥想盆范式:让大模型学会管理自己的上下文
SkillRL:让AI智能体学会"练功升级"的递归技能强化学习框架
你的多智能体系统是"真协作"还是"真烧钱"?一个指标帮你看清真相
AgentScope 深度解读:多智能体开发框架的工程化实践
扒开 Claude Code 的底裤:为什么你的 AI Agent 总是半途而废?
OpenClaw Cron 深度解读:让 AI Agent 学会自主定时工作
AI Agent 的分身术:深度解析 OpenClaw 子代理系统设计
2026 年 1 月
Zep:时间知识图谱驱动的智能体记忆架构——让 AI 真正"记住"你
A-Mem:让LLM智能体拥有"会思考"的记忆系统
Plan-and-Act:让AI智能体学会"先想后做"
Voyager:让 GPT-4 在《我的世界》里自主探索、终身学习
AI Paper Analysis
2026 年 5 月
HeavySkill 论文解读 重思考即智能体内化技能
在shibing624/ai-paper-analysis上编辑
上一章
下一章
shibing624/ai-paper-analysis
« 上一章
下一章 »