AI Paper Analysis
  • 首页

按主题

  • Agent 智能体 (90)
    • MMG2Skill:把网上现成的多模态攻略,喂成 Agent 自我进化的技能包
    • 自动 harness 在线上部署越跑越烂?这篇论文把"进化"和"适应"两个损失彻底拆开了
    • Harness-1:把"思考过程"写到外面去——一个 20B 搜索智能体如何打过 Opus 和 GPT-5
    • 让 Agent 自己长记忆:用代码覆盖率当奖励,把"探索"和"记住"绑在一起训
    • 观测掩码不是免费午餐:搜索智能体的 Regime Map 与机制拆解
    • 失败一整条轨迹,到底该怪哪一步?SkillAdaptor 用步级归因把 Agent 的技能库改对了
    • 让 AI 自己当数据工程师:从零自主策划训练数据,把学生模型涨了 57.29%
    • 把一个"懂事的同事"打包成 Skill:从异构痕迹蒸馏可检查、可修正、可回滚的 AI 技能
    • GrepSeek:让搜索智能体扔掉向量索引,直接用 grep 翻语料
    • TCP-MCP:把多 Agent 系统的 prompt 和拓扑当作"基因组"一起进化
    • HINT-SD:长程 Agent 训练里,"在哪里反馈"比"反馈多稠密"更值钱
    • MUSE-Autoskill:把 Agent 技能从"一次性产物"管成"有生命周期的资产"
    • Agent的"空闲时间"被浪费了——ProAct想用它干点正事
    • 8K 条合成任务,把开源深度研究 Agent 拉到闭源水平 —— QUEST 论文细读
    • 技能到底该"记住"还是"带着"?Skill0.5 给出了一个折中但有效的答案
    • 把 Agent 的 Skill 当参数来训:SkillOpt 让一个 Markdown 文件涨 23 个点
    • 多Agent投票投出个寂寞?这篇AAAI 2026把冷战时期的情报学方法搬了进来
    • Conformal CPO:把保形预测嵌入 LLM Agent 编排策略,可证明可靠性 + 30% 成本节省
    • DEPO:把"少 token + 少步骤"同时塞进 KTO 的偏好优化
    • Agent 轨迹的"监督盲区":把多轮工具调用编译成长上下文训练数据,30B 干到 235B
    • 2011 年的 DAgger 被搬回来训 SWE 智能体,4B 模型干翻一票 8B 系统
    • HAGE:让 Agent 的记忆图自己学会该走哪条边
    • 把 Agent 的"技能"从文本提示升级成可执行护栏:HASP 框架到底解决了什么
    • 工业质检领域的 MLLM 卡在哪了?这篇论文给了一个把工具调用塞进 RL 的解法
    • 当 Prompt 优化器在 6 个任务里 4 个原地踏步:MOCHA 用切比雪夫退火给 Agent 技能找出路
    • MetaAgent-X:让设计器和执行器一起进化,自动 MAS 的天花板被端到端 RL 撞穿了
    • 一篇综述把多智能体的"协作—归因—自演化"串成一条因果链:LIFE 框架的意义
    • SkillsVote:当智能体技能库长到百万级,怎么不让它把Agent带歪?
    • Solvita:四智能体闭环 + 可训练知识网络,让大模型在 Codeforces 打到 Legendary Grandmaster
    • Ctx2Skill:让模型读完一份文档就"自己出题考自己"——无反馈下的 skill 自演化
    • Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊
    • 当工具库膨胀到4万个,Agent该怎么"找工具"?UCLA这篇FitText把检索塞进了推理循环
    • SLIM:Agent 的"技能仓库"不应该一味变大或变小——技能要有生命周期
    • SSL:把 SKILL.md 拆成三层结构化图谱——技能检索 MRR 涨 8 个点、风险评估 F1 涨 10 个点
    • Skill1:用一个奖励信号,把 Agent 的"选、用、攒"三件事一起练出来
    • SkillOS:与其训练 Agent 自己变强,不如训练一个专门管"技能库"的小模型
    • 让 Agent 先「想清楚再动手」:StraTA 给长程 Agent RL 加上一层策略抽象
    • TMAS:当并行多路推理不够用,怎么让多 Agent 真正"协同"起来?
    • Web2BigTable:用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍
    • 决策和执行拆开训:一篇把 Agentic RAG 写成 MDP、再用剪枝把数据造快 6 倍的工业界论文
    • 好过程无需好答案:把 Agent 的规划和总结拆开训,工业 RL 才走得通
    • Agent别再"想都不想就动手"了:SAND教大模型先在脑子里把候选动作走一遍
    • 部署即固化的Agent,怎么在线学新规则?ARIA给了一个能落地的答案
    • 让 Web Agent 自学不停滞——WebEvolver 用一个共演化世界模型撑起多步 Look-Ahead
    • Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读
    • Agent-World:当智能体训练终于不用再"假装"在跟世界打交道
    • AgentSPEX:当 Agent 框架开始把"控制流"从 Python 里抠出来
    • DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压
    • 终端Agent的"上下文垃圾场"清理工:TACO 用一个不停进化的规则池替代手写 prompt
    • 撕掉"自进化"的伪装:让Agent在没人喂奖励的时候,自己摸清楚一个陌生世界
    • AgentSwing:长时Web Agent的上下文管理,为什么"一条路走到黑"行不通
    • AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式
    • 你以为你在用不同的数据集训练模型?谱系图告诉你:它们都是同一棵树上的枝条
    • GraSP:给Agent的技能加上因果图,多了反而更行
    • 让Agent自动调模型:TREX用搜索树把LLM微调做成了下棋
    • Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案
    • CORAL:当多个 AI Agent 学会自己搞进化,效率碾压传统搜索 3-10 倍
    • AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么?
    • 检索模型该为谁训练?当搜索的用户从人变成了AI Agent
    • 一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了
    • 训练时把技能"喂"进参数里,推理时不带小抄也能满分——Skill0的技能内化之路
    • SkillX:让 Agent 学会"传帮带",自动构建可复用的技能知识库
    • 从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)
    • 7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化
    • 8B小模型干翻GPT-4o?用"信息不对称"让LLM自己查自己的幻觉
    • LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客
    • 不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent
    • MetaClaw:让 AI 智能体"边干边学"——双时间尺度持续进化框架
    • 从零搭一个 AI Agent 框架,到底需要理解什么?
    • OpenSeeker:首个完全开源训练数据的搜索 Agent,单次 SFT 逆袭复杂工业管线
    • Agent Teams 深度解读:从 Claude Code 到多智能体协作的技术全景
    • OpenClaw-RL 论文解读:用"下一状态信号"统一所有智能体的强化学习训练
    • OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么
    • 💥 别再死磕 Prompt 和 Workflow 了!DeepSeek-R1 引爆的 Agent 端到端强化学习革命
    • 🎯 用模拟器"养"出一个能打的搜索Agent:8B小模型如何在无限上下文下学会推理、追问与规划
    • 4B小模型干翻70B?CoVe用约束验证让工具调用Agent数据效率提升18倍
    • SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站
    • EMPO²:让LLM智能体学会"记笔记+开卷考"的强化学习框架
    • Tool-R0:零数据也能训出工具调用高手——自进化LLM Agent的破局之路
    • SkillOrchestra:用"技能手册"取代强化学习,让AI智能体调度又好又省
    • 扩散语言模型也能当搜索代理?DLLM-Searcher用"边想边搜"的并行范式干掉了自回归模型
    • 30B参数的搜索代理,凭什么在BrowseComp上和GPT-o3掰手腕?拆解REDSearcher的三段式训练框架
    • Agent World Model:给智能体造一个"矩阵世界"——无限合成环境驱动的强化学习
    • InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架
    • 你的多智能体系统是"真协作"还是"真烧钱"?一个指标帮你看清真相
    • AgentScope 深度解读:多智能体开发框架的工程化实践
    • OpenClaw Cron 深度解读:让 AI Agent 学会自主定时工作
    • AI Agent 的分身术:深度解析 OpenClaw 子代理系统设计
    • Plan-and-Act:让AI智能体学会"先想后做"
    • Voyager:让 GPT-4 在《我的世界》里自主探索、终身学习
  • 强化学习 (77)
    • 给 reward hacking 装上一面"放大镜":rubric-based RL 的可控复现环境
    • ThoughtFold:让推理模型把"想得太多"的废话自己折叠掉
    • 多域RL训练完Math就忘?这篇论文给出了"局部扰动"层面的解释
    • RL 训练时模型已经走错了,还非要让它写完 8192 个 token?阿里 Tongyi Lab 这篇 ESPO 把失败 rollout 提前掐了
    • 长上下文 RL 训练数据该怎么造?让搜索 Agent 帮你筛干扰项
    • SAAS:让 Agent 学会"我自己其实知道"——用自感知 RL 治理过度搜索
    • 不要再卷神经验证器了:用维基百科"共现次数"当奖励,事实问答RL训练快 8 倍
    • ROSD:让自蒸馏去"改错",而不是去"抄答案"
    • 让 8B 小模型学会"我不知道":TIAR 用 GRPO 轨迹给弃权 reward 动态加权
    • Focal Reward:当 RL 把"容易拿分的维度"刷爆了,剩下的硬骨头怎么办
    • Agent训练越练越爱乱调工具?这篇论文让模型自己学会"什么时候该闭嘴查工具"
    • 多奖励 RL 训练崩了?阿里云这篇 DVAO 给了 GRPO 一个真正干净的多目标解
    • RAG-R1:让模型自己决定要搜几次,把 RAG 从串行链改成自适应多查询并行
    • 一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的"独白"改成了"群聊"
    • DeCoRL:把推理链拆成"乐团合奏"——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作
    • GenPRM:让 1.5B 的过程奖励模型,靠"边写边推理边跑代码"打赢 GPT-4o
    • LLMdoctor:用小模型 doctor 在 token 级别给冻结的 patient 大模型做"对齐处方"
    • Length Bias Causal 论文解读:用因果反事实拆掉 RLHF 奖励模型的"啰嗦偏好"
    • MEML-GRPO 论文解读:异构多专家互学习破解 RLVR 的奖励稀疏
    • PPPO 论文解读:前缀决定推理,RLVR 只优化开头就够了
    • ActGuide-RL:把 SFT 冷启动换成"动作引导"的智能体 RL 新范式
    • 教蒸馏教师"少看一点",反而学生学得更好——LLM 推理自蒸馏的一个隐藏旋钮
    • 30B 小模型拿 IMO 金牌:SU-01 把"会做题"和"会证明"拆开来打
    • 用策略提示把模型推出舒适区:NudgeRL 让 8 个 rollout 跑赢 64 个
    • RLVR 训练只跑前 15% 步,剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文
    • SDAR:让每个 token 自己决定蒸馏强度——多轮 Agent RL 的一次"非对称信任"修补
    • 不要任何人工标注,PRM 也能训出来——EPFL 这套 uPRM 把"+/-"两个 token 玩出花了
    • 不要再给Agent硬塞PRM了:百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了
    • G-Zero:开放域任务里,没有 verifier 也能跑出 self-play 的奇迹?
    • LPO:把 GRPO 的"隐式投影"翻到台面上——RLVR 的几何统一视角
    • LenVM:把"还剩多少 token"建模成 value——给 LLM 装上了一个 token 级长度刻度尺
    • 往 Prompt 前面拼一段 Lorem 乱码,GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的
    • 多智能体 LLM 的 RL 该往哪走?这篇 84 篇综述把"编排轨迹"作为新单元
    • RubricEM:当 Deep Research Agent 没有 ground truth,RL 还怎么训?
    • SEIF:让模型自己出题考自己——指令跟随能力的自演化训练
    • 多目标文本生成里,权重别再手写:AW-GRPO 把 GRPO 从「偏科」拉回正轨
    • 把 RL Agent 直接扔进真实互联网:DeepResearcher 撕开了 RAG 训练的舒适区
    • GRPO-LEAD:让推理模型说人话——给 GRPO 加上长度、罚分和难度三味药
    • 训RAG Agent老犯"搜了又搜"和"乱搜一气"两个毛病?LeTS给出了一个不靠人工标注的解法
    • 不动模型、没有标签,让 Agent 在测试时把准确率干到 93.94%——EMNLP 2025 这篇 Schema Mapping 论文挺有意思
    • NOVER:把 R1-Zero 的"激励训练"从数学题搬到任意文本任务,靠的不是更大的 verifier,而是一个 perplexity
    • 代码生成里 Process Reward 第一次被认真验证:PRLCoder 把"行级别"奖励喂给 PPO,难题 Pass@80 涨了 9.6 个点
    • PPO 不是 RLHF 的最优解:Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名
    • 把 Reward Model 拆成五个"专科医生"——SRM 用工程套路在 RM 上又榨了 8 个点
    • WebAgent-R1:8B小模型在网页操作上把o3拉下马,多轮RL把分从8.5%硬拉到44.8%
    • iTool:合成数据加越多越没用?哈工大+华为用 MCTS 找出"那一小片错",8B 反超 GPT-4o
    • GFT:把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍
    • 强LLM不一定是好"优化器":决定胜负的不是参数量,而是"局部精修"的能力
    • Too Correct to Learn:当模型"答得太对"时,GRPO反而学不动了
    • NPO:让"未来的自己"教会"现在的自己",RLVR走出Q/V困局
    • 8个样本就能涨32个点?RLVR的"奇迹"为什么换到Llama身上就不复现了
    • 测试时训练为什么总崩?TEMPO 用 EM 把缺失的那一步补回来
    • 从推理到智能体:LLM强化学习中的信用分配,到底难在哪?
    • KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平
    • 30 GPU小时训出AIME 69.9%:Lightning OPD把在线蒸馏搬到了离线
    • 记忆增强的动态奖励塑形:MEDS如何让LLM不再"重蹈覆辙"
    • SPPO:别再逼Critic逐token猜了——序列级建模一招解决长链推理信用分配
    • TPO:把"该学什么"和"怎么学"拆开,梯度自己知道什么时候停
    • $p1$:用2道题训练出的系统提示,凭什么碾压全量数据?
    • RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合
    • GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了
    • 让代码模型学会"脑内编译":不执行代码也能验证对错?
    • 一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局
    • 4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化
    • 让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈
    • 不需要SFT,仅靠上下文强化学习就能教会LLM使用工具
    • 强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证
    • 广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型
    • Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命
    • DSDR:让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架
    • Nanbeige4.1-3B:3B 参数的"六边形战士"是怎么炼成的
    • 给大模型装一台"事实核查显微镜":RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉
    • TAROT:测试驱动 + 能力自适应课程,让代码强化微调"因材施教"
    • 把简单题"拼"成难题:Composition-RL 如何让大模型越练越聪明
    • Dr. MAS:给多智能体LLM系统开一剂"镇静药"——稳定强化学习的理论与实践
    • 体验式强化学习:让模型学会"吃一堑长一智"
    • SkillRL:让AI智能体学会"练功升级"的递归技能强化学习框架
  • RAG 检索增强 (17)
    • 密集检索凭什么给高分?Xetrieval 用稀疏特征把黑箱掰开了
    • 长篇小说推理卡壳怎么办?ComoRAG 让 RAG 学会"想到一半再去翻书"
    • LogicRAG:把图谱从离线建变成推理时即时拼,GraphRAG 这条路是不是走偏了
    • RALM 真的"知道自己不知道"吗?AAAI 2026 揭开检索增强模型的过度拒答陷阱
    • 当 RAG 检索到的内容跟模型脑子里的"记忆"打起来——AAAI 2026 这篇用信息瓶颈给出了一个有理论支撑的解法
    • SubGCache 论文解读:子图级 KV 缓存把图谱 RAG 推理首字延迟砍到原来的 1/6
    • Attention 自己就是检索器:NVIDIA 把外挂 retriever 拆了,多跳 QA 反而更强
    • 多跳RAG总在桥接事实上栽跟头:NYU这套AdaGATE把证据装配当成了"修补题"
    • 扔掉向量库,让 Agent 直接 grep 原始语料库——一篇打破检索神话的论文
    • S2G-RAG:让 RAG 学会回答"我到底还差什么"——HotpotQA 上 F1 暴涨 13 个点
    • CodeRAG:把"检索什么"和"重排什么"都想清楚——仓库级代码补全的一次系统性重做
    • TurboRAG:把RAG的Prefill搬到离线,TTFT直接快9.4倍
    • 你的检索器其实在"假装"听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA
    • 当知识图谱变成"黑箱":BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞
    • 腾讯广告的RAG实战:如何用强化学习干掉92.7%的URL幻觉?
    • 当RAG的"压缩包"爆了:如何检测Token溢出?
    • 金融RAG的幻觉难题:用原子知识单元让模型"说实话"
  • 推理与思维链 (37)
    • 答案已经对了,模型却还在絮叨——这段"多说的"才是 SFT 数据真正的毒
    • 3%的注意力头,扛起了LLM整个演绎推理过程——一篇可解释性论文的硬核拆解
    • 进化搜索的算力分配重构:从深度-广度到多臂老虎机
    • BES:别只让模型往前猜,倒着拆目标再重组答案
    • 并行推理别再各想各的:CPT 让多条思维链学会“共享情报”
    • 把"40000层迭代"写成吸引子收敛:CMU 团队让 5M 小模型在 Sudoku-Extreme 上从 2.6% 干到 99.8%
    • CoT-SAE 论文解读:用稀疏自编码器看穿"思维链是否真在思考"
    • Reasoning-SAE 论文解读:用稀疏自编码器抓住 DeepSeek-R1 的"思考时刻"
    • Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层"心理调节器"
    • 用数学训出来的 PRM,跑到代码任务上还能涨 4 个点——这事让我对"PRM 是不是被高估了"重新想了一遍
    • UnPRM:用"不确定性"省 60% PRM 标注成本,再回头修一遍多数投票
    • 三个推理模型轮流接力解一道题,蒸出来的学生反超老师
    • Many-Shot CoT-ICL:把上下文窗口当课程表来排,几何任务直接拉高 5.42 个点
    • 当模型已经"想明白"了还在絮叨——这篇论文教你怎么让它闭嘴
    • ThinC:让模型用代码"思考",而不是用代码"验证"
    • CODI:让模型把思维链"塞"进连续空间,6 个隐向量顶 20 个 token
    • 别让模型「想太多」:中国联通团队把推理长度做成难度自适应——DAST 论文精读
    • 让模型"故意答错",反而把验证器训得更准——逻辑推理上的 ORM + Test-Time Scaling 实验
    • 让奖励模型先"想清楚"再打分:R-PRM 把 PRM 从打分器升级成推理者
    • RethinkMCTS:让MCTS会"反省",把走歪的思路改对再继续搜代码
    • 让 o1 学会自己上网查资料:Search-o1 给大推理模型补上的那块知识短板
    • LLM能从零重新发明基础算法吗?遗忘后再发明,最强模型成功率90%
    • Reasoning Graphs:让RAG Agent不再"翻车"的证据图谱
    • OPD不是万能药:大模型在线策略蒸馏什么时候能work,什么时候一定崩
    • 推理模型其实是"先决定,再编理由"?这篇论文用探针抓了个现行
    • ThinkTwice: 让模型学会"做完题再检查一遍",推理+自纠错联合训练只加3%开销
    • 推理偷工减料?上下文是如何悄悄"缩短"大模型思考过程的
    • 自蒸馏让大模型变"自信"了,推理能力却崩了——不确定性才是推理的命脉
    • 递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22%
    • ReAct:让大模型学会"边想边干"的智能体范式
    • 你以为大模型在"思考"?其实它只是在努力"回忆"
    • 图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍
    • 9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题
    • PRISM:用过程奖励模型为DeepThink系统装上"导航仪"
    • 当AI客服犯了错,怎么在不动系统的情况下"洗脑"它纠正?——ReIn: 对话错误恢复的推理植入
    • SAGE:你的推理模型其实知道何时该停下来,只是你没让它说
    • Chain of Mindset:让AI学会像人一样"切换脑回路"
  • 记忆系统 (24)
    • MemTrain:不靠下游标注,光啃维基百科就把"记忆代理"训出来了
    • 让大模型也学会"睡一觉":Google 把 NREM 和 REM 直接搬进了 LLM 训练协议
    • FluxMem:当智能体的记忆不再是"死档案",而是一张活着的网
    • MemForest:当 Agent 的"记忆"被当成数据库问题来做,写吞吐量直接 6 倍
    • 该不该把这条会话存进 Agent 记忆?这篇论文说:先看是哪个用户
    • 长程智能体不是缺上下文,而是缺会翻旧账的记忆
    • EvolveMem:让 Agent 的记忆系统自己改自己的检索配置
    • δ-mem:一个 8×8 的矩阵,能给 LLM 当"长期记忆"吗?
    • 当 LLM 不断"总结过去的经验",记忆反而变坏:Agentic Memory 的隐性陷阱
    • 三套 Prompt 互相甩锅,怎么调?三星 × GMU 把记忆 Agent 的 APO 做成可落地闭环
    • AWS 这篇论文让 LLM Agent 的记忆"自己长出索引",RAG Recall 暴涨 34%
    • 异质任务下的记忆提取:为什么单一Prompt就是搞不定,得"先聚类再演化"
    • Memanto:当所有人都在堆图谱时,他们用一颗朴素的向量索引把SOTA又拿回来了
    • 对话AI的记忆困境:什么时候该记,什么时候该忘?
    • Coding Agent的记忆能跨域迁移吗?这篇论文给出了让人信服的答案
    • FileGram:让AI助手"记住"你怎么管文件,而不只是记住你说了什么
    • LightThinker++:让大模型学会"记笔记",推理token砍掉70%还能涨点
    • MemSifter:用4B小模型给大模型当"记忆管家",检索又快又准
    • 给Agent装上"大脑"有多难?一篇Survey揭示了智能体记忆系统的残酷现实
    • MemFly:当智能体的记忆学会了"断舍离"——信息瓶颈驱动的即时记忆优化
    • 别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记
    • 冥想盆范式:让大模型学会管理自己的上下文
    • Zep:时间知识图谱驱动的智能体记忆架构——让 AI 真正"记住"你
    • A-Mem:让LLM智能体拥有"会思考"的记忆系统
  • 评估与基准 (44)
    • AutoLab:把模型扔进 12 小时的"科研闭环",看谁还能坚持下去
    • 你的多模态大模型,其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开
    • Harness 更新 ≠ Harness 受益:把自进化 Agent 的两种能力彻底拆开
    • Entity-Collision:把 Agent 记忆系统的检索增益拆开归因
    • 当AI智能体学会"一心多用":AsyncTool揭示大模型异步工具调用的真实水平
    • 你以为在测 CoT 忠实度?这篇论文说现有指标基本都接近瞎猜
    • 搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆?
    • LLM 记忆系统也会“甩锅”:MemTrace 把错误追到具体操作
    • 25% 的 Agent 技能其实在帮倒忙:一篇把"技能生命周期"拆到底的系统研究
    • 别只盯着最终答案:Agent 幻觉真正危险的地方在轨迹里
    • 给Claude 3.7一个GitHub仓库让它干活,54个真实任务它只做对了48%
    • 别再只看准确率了:用认知负荷理论给工具智能体画一张"能力边界图"
    • 答对了题,却抄错了出处——CiteVQA 把多模态大模型的"归因幻觉"摆上了台面
    • 给Agent记忆系统泼一盆冷水:长时程多目标干扰下,所有主流方案平均只有27.9%
    • π-Bench:当 AI 助理被要求"猜你想说但没说的话",9 个旗舰模型集体翻车
    • LLM 智能体的记忆「悄悄过期」问题:最强模型也只能拿 55 分
    • BRIGHT-Pro 与 RTriever:把"推理密集型检索"从静态榜单拉回 Deep Research 真实战场
    • Claw-Eval-Live:连 Opus 都过不了 70%,工作流 Agent 离"自动化"还差一个数量级
    • AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难?
    • SimpleTES:用开源 gpt-oss 把 LASSO 提速 2 倍、量子门数砍掉 24.5%——靠的不是更强的模型,而是更多的"评估"
    • 给Agent装"持续学习"开关:写技能容易,修技能难——SkillFlow揭开11个前沿模型的真实差距
    • 当最强Agent也只能做对45%的任务:CocoaBench揭开统一数字智能体的真实水平
    • LM Agent的探索和利用居然可以被量化,而且探索才是命门
    • 你的AI助手会"翻旧账"吗?ClawArena告诉你,绝大多数Agent在信息变化面前一塌糊涂
    • Claw-Eval: 你以为你的 Agent 很安全?44% 的安全违规被漏检了
    • AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon
    • AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示
    • 当AI学会"欺骗"裁判:推理型LLM评判员的双刃剑效应
    • BeyondSWE 论文解读:当前代码智能体能否超越单仓库修 Bug?
    • Legal RAG Bench:当检索拖了后腿,大模型再聪明也白搭
    • UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗?
    • OmniGAIA:迈向原生全模态AI智能体——基准测试与基础模型的全面突破
    • 当 AI 研究员学会了"搜索",搜索引擎该怎么配合?——深度研究中的文本排序再审视
    • AD-Bench:当LLM Agent遇上真实广告投放,最强模型也只能拿69分
    • GPT-5.1 也只拿了 69 分?妙问团队三篇论文揭秘:大模型在真实业务中翻车的真相与破局之道
    • DeepImageSearch:当图像检索需要"侦探式推理",现有AI还差多远?
    • 当RAG遇上知识图谱:一个让LLM"开卷考试也翻车"的新基准
    • InnoEval:当AI也组了一个"评审委员会",它比人类审稿人更靠谱吗?
    • ResearchGym:当最强AI被扔进真实科研战场,它们交出了怎样的答卷?
    • 给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区
    • GISA:当最好的AI搜索助手也只有19%准确率
    • 让大模型学会"教人做事":How2Everything从98万网页中挖出35万份操作指南
    • 当Agent遇到"上下文腐烂":LOCA-bench揭示长上下文的真相
    • 当AI学会"搜论文",传统搜索算法反而赢了?——SAGE基准测试揭示的反直觉发现
  • 模型架构与训练 (37)
    • 先把烂轨迹扔了,再给好 token 加权——FiRe-OPD 把 OPD 的优化粒度重新做了一遍
    • KVarN:方差归一化让 2-bit KV 缓存扛住长链推理
    • 教师不给 logit 也能搞 on-policy 蒸馏?OmniOPD 用 chunk 级语义投票把 Claude/Gemini 拉进了蒸馏管线
    • TrOPD 论文解读 信任区域在线策略蒸馏
    • Draft-OPD:让推测解码的草稿模型,从"自己犯的错"里学习
    • PEFT 不只是省钱的小补丁——它能撑起百万级人格模型
    • LoRA 到底能记住多少东西?一个优雅的幂律定律告诉你答案
    • 单向量 Embedding 模型其实"早就会"多向量检索——SMART 把被压扁的隐藏状态用起来了
    • 给投机解码的草稿模型加一个"耳麦":从验证器隐藏态算 steering 向量,接受 token 数最多多 35 个百分点
    • KV Cache 还能再砍一刀:SparK 在通道维度上做了一件被忽略多年的事
    • ToolACE-R:让模型自己决定训练吃什么、推理时改几遍
    • TransMamba:把 Transformer 和 Mamba 塞进同一套参数里,按 token 长度自由切换
    • 长前缀的第三条路:把注意力"提前算好存起来",推理时直接查表
    • EndPrompt:短序列也能撑起 64K——给 LLM 长上下文塞一个"终点路标"
    • 全注意力的反击:百步训练把稠密注意力"翻译"成稀疏,1M 上下文 prefill 提速 9.36 倍
    • OPD 为什么这么快?腾讯混元从参数动力学给了一个让人服气的答案
    • 把 7B 视觉语言模型从 32K 拉到 128K,他们只花了 50 亿 token——还顺便外推到了 512K
    • 给智能体一张"地图":PEEK 把长上下文里反复重学的那部分缓存了下来
    • Agentic Architect:让 LLM 帮你"进化"出 CPU 微架构——预取器跑赢 SMS 21%
    • Fast-Slow Training:让 LLM 的"参数"和"上下文"一起学
    • Ψ-RAG:把 Tree-RAG 从"单文档玩具"推到"语料库级跨文档多跳"——比 RAPTOR 强 25.9%、比 HippoRAG 2 强 7.4%
    • UniPrefill:当稀疏注意力遇到混合架构,长上下文 Prefill 该怎么加速?
    • UniSD:不靠"更强的老师",LLM 能不能自己教自己变强?
    • TokenSelect:把 KV Cache 的"块级粗筛"砸碎到 Token 级,128K→1M 上下文加速 23.84 倍
    • ShadowPEFT:把 LoRA 的"分散低秩"换成共享影子网络,顺便让 PEFT 模块可拆可装
    • DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的"算力性价比"被重新定义
    • Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解
    • 不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径
    • TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课
    • BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍?
    • 用λ演算驯服LLM的递归:8B小模型干到70B的表现
    • 部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化
    • blocks: 历史 block 表示 [b0, b1, ..., b(n-1)]
    • IndexCache:跨层索引复用,让稀疏注意力推理再快一倍
    • Avey-B:抛弃注意力机制,用"分拣员+处理器"重新定义双向编码器
    • GLM-5:当大模型学会"自己写代码",从Vibe Coding到Agentic Engineering的跨越
    • MiniCPM-SALA:让Transformer在百万token下跑起来
  • AI 科研 (12)
    • 论文不再线性跑流水线:AutoResearchClaw 用辩论、自愈和跨次进化把 AI 科学家推上一个台阶
    • ARIS:当你怀疑 AI 在"看起来很对"地胡说八道——上海交大开源的跨模型对抗科研 Harness
    • 把"提想法-写代码-跑实验-改下一版"整个交给Agent:CMU这篇把ML自动研究跑成了一条可审计的轨迹
    • Faithful Uncertainty:把"幻觉"重新定义为"自信地说错"——Google 在告诉你下一步该怎么走
    • NanoResearch:研究自动化跑得起来不算赢,跑出"你这个研究员要的东西"才算赢
    • ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?
    • 找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架
    • AI能自主做临床科研了吗?港中文&斯坦福联手造出第一个医学AI科学家
    • 当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了
    • MiroThinker-1.7 & H1:搜索 Agent 的天花板不在"搜得多",而在"每步都靠谱"
    • EvoScientist:让AI科学家学会"长记性"——多智能体进化框架如何实现端到端科研自动化
    • 🔬 Autoresearch 深度解读:Karpathy 的"AI 自主科研"到底有没有戏?
  • 工程实践与 Coding Agent (22)
    • 用合成数据喂出来的终端智能体,凭什么只用 1 万条轨迹就能打平 50 万条的效果?
    • AstraFlow:把Agentic RL训练系统拆开重写,2.7×加速背后是一套被忽视的抽象
    • 42 位作者联手发声:代码不再只是 Agent 的"输出",而是它赖以生存的"操作系统"
    • EnvFactory:85 个环境如何打掉 500+ 的工具调用 RL 数据工厂
    • 把多跳 RAG 写成一段 Python 程序:当推理过程从"自由发挥"变成"编译器说话"
    • Think-Search-Patch:让 7B-14B 模型把仓库级 bug 修出 GPT-4 三倍的命中率
    • Agent Coding 测试时算力怎么花?Meta 给出了一个反直觉的答案:先做"摘要"再做"选拔"
    • 上下文永远不够用:SLIDERS 把长文档问答从"读完所有 token"换成"查数据库"
    • AiScientist:扔掉对话接力棒,用文件总线撑起23小时自主科研
    • CodeTracer:给AI代码智能体装上"黑匣子",故障追溯一步到位
    • 当AI编码Agent被"焊死"在产品里,怎么把它的核心引擎拆出来?
    • Anthropic Managed Agents: 把"脑"和"手"拆开,Agent 基础设施才算真正成熟
    • 不调模型调"脚手架":斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂
    • 用2B小模型给Coding Agent的工具输出"挤水分":砍掉92%的token,召回率反而更高
    • 30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)
    • 上下文撑破之前,Claude Code 如何"清理记忆"——源码精读(二)
    • Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%
    • OpenSWE 论文解读:147 万美元打造最大开源 SWE 训练环境,45k Docker 环境助力代码 Agent 登顶 SWE-bench
    • Claude Code 玩法大全:从入门到上瘾的终极指南
    • Harness Engineering 深度解读:AI Agent 时代的「缰绳与马鞍」
    • Qwen3-Coder-Next:80B参数只激活3B,如何用"小代价"训出最强编程智能体
    • 扒开 Claude Code 的底裤:为什么你的 AI Agent 总是半途而废?
  • 其他 (4)
    • 两万真实会话揭示 Coding Agent 七大失配模式:开发者-Agent 错位的大规模实证
    • 别总找更强老师了,让推理模型从错误里爬出来
    • 大模型工具调用的"知行差距":它知道该调用工具,但就是不动手
    • HeavySkill 论文解读 重思考即智能体内化技能

2026 年 6 月

  • AutoLab:把模型扔进 12 小时的"科研闭环",看谁还能坚持下去
  • 给 reward hacking 装上一面"放大镜":rubric-based RL 的可控复现环境
  • 先把烂轨迹扔了,再给好 token 加权——FiRe-OPD 把 OPD 的优化粒度重新做了一遍
  • 你的多模态大模型,其实根本"不会记"——M³Eval 用认知心理学把视频记忆这件事彻底拆开
  • MMG2Skill:把网上现成的多模态攻略,喂成 Agent 自我进化的技能包
  • MemTrain:不靠下游标注,光啃维基百科就把"记忆代理"训出来了
  • ThoughtFold:让推理模型把"想得太多"的废话自己折叠掉
  • 自动 harness 在线上部署越跑越烂?这篇论文把"进化"和"适应"两个损失彻底拆开了
  • 答案已经对了,模型却还在絮叨——这段"多说的"才是 SFT 数据真正的毒
  • KVarN:方差归一化让 2-bit KV 缓存扛住长链推理
  • 多域RL训练完Math就忘?这篇论文给出了"局部扰动"层面的解释
  • 教师不给 logit 也能搞 on-policy 蒸馏?OmniOPD 用 chunk 级语义投票把 Claude/Gemini 拉进了蒸馏管线
  • 让大模型也学会"睡一觉":Google 把 NREM 和 REM 直接搬进了 LLM 训练协议
  • TrOPD 论文解读 信任区域在线策略蒸馏
  • Draft-OPD:让推测解码的草稿模型,从"自己犯的错"里学习
  • RL 训练时模型已经走错了,还非要让它写完 8192 个 token?阿里 Tongyi Lab 这篇 ESPO 把失败 rollout 提前掐了
  • Harness-1:把"思考过程"写到外面去——一个 20B 搜索智能体如何打过 Opus 和 GPT-5
  • 让 Agent 自己长记忆:用代码覆盖率当奖励,把"探索"和"记住"绑在一起训
  • 观测掩码不是免费午餐:搜索智能体的 Regime Map 与机制拆解
  • PEFT 不只是省钱的小补丁——它能撑起百万级人格模型
  • 失败一整条轨迹,到底该怪哪一步?SkillAdaptor 用步级归因把 Agent 的技能库改对了
  • 让 AI 自己当数据工程师:从零自主策划训练数据,把学生模型涨了 57.29%
  • 把一个"懂事的同事"打包成 Skill:从异构痕迹蒸馏可检查、可修正、可回滚的 AI 技能
  • GrepSeek:让搜索智能体扔掉向量索引,直接用 grep 翻语料
  • Harness 更新 ≠ Harness 受益:把自进化 Agent 的两种能力彻底拆开
  • 长上下文 RL 训练数据该怎么造?让搜索 Agent 帮你筛干扰项
  • SAAS:让 Agent 学会"我自己其实知道"——用自感知 RL 治理过度搜索
  • 不要再卷神经验证器了:用维基百科"共现次数"当奖励,事实问答RL训练快 8 倍
  • 3%的注意力头,扛起了LLM整个演绎推理过程——一篇可解释性论文的硬核拆解
  • ROSD:让自蒸馏去"改错",而不是去"抄答案"
  • 让 8B 小模型学会"我不知道":TIAR 用 GRPO 轨迹给弃权 reward 动态加权

2026 年 5 月

  • 进化搜索的算力分配重构:从深度-广度到多臂老虎机
  • 两万真实会话揭示 Coding Agent 七大失配模式:开发者-Agent 错位的大规模实证
  • Entity-Collision:把 Agent 记忆系统的检索增益拆开归因
  • Focal Reward:当 RL 把"容易拿分的维度"刷爆了,剩下的硬骨头怎么办
  • TCP-MCP:把多 Agent 系统的 prompt 和拓扑当作"基因组"一起进化
  • Agent训练越练越爱乱调工具?这篇论文让模型自己学会"什么时候该闭嘴查工具"
  • 当AI智能体学会"一心多用":AsyncTool揭示大模型异步工具调用的真实水平
  • BES:别只让模型往前猜,倒着拆目标再重组答案
  • 你以为在测 CoT 忠实度?这篇论文说现有指标基本都接近瞎猜
  • 并行推理别再各想各的:CPT 让多条思维链学会“共享情报”
  • 多奖励 RL 训练崩了?阿里云这篇 DVAO 给了 GRPO 一个真正干净的多目标解
  • 别总找更强老师了,让推理模型从错误里爬出来
  • 把"40000层迭代"写成吸引子收敛:CMU 团队让 5M 小模型在 Sudoku-Extreme 上从 2.6% 干到 99.8%
  • FluxMem:当智能体的记忆不再是"死档案",而是一张活着的网
  • HINT-SD:长程 Agent 训练里,"在哪里反馈"比"反馈多稠密"更值钱
  • 用合成数据喂出来的终端智能体,凭什么只用 1 万条轨迹就能打平 50 万条的效果?
  • 搜索智能体的皇帝新衣:它们真的在搜索,还是在用Google验证自己的记忆?
  • MUSE-Autoskill:把 Agent 技能从"一次性产物"管成"有生命周期的资产"
  • MemForest:当 Agent 的"记忆"被当成数据库问题来做,写吞吐量直接 6 倍
  • LLM 记忆系统也会“甩锅”:MemTrace 把错误追到具体操作
  • LoRA 到底能记住多少东西?一个优雅的幂律定律告诉你答案
  • 该不该把这条会话存进 Agent 记忆?这篇论文说:先看是哪个用户
  • Agent的"空闲时间"被浪费了——ProAct想用它干点正事
  • 8K 条合成任务,把开源深度研究 Agent 拉到闭源水平 —— QUEST 论文细读
  • 长程智能体不是缺上下文,而是缺会翻旧账的记忆
  • 单向量 Embedding 模型其实"早就会"多向量检索——SMART 把被压扁的隐藏状态用起来了
  • 技能到底该"记住"还是"带着"?Skill0.5 给出了一个折中但有效的答案
  • 25% 的 Agent 技能其实在帮倒忙:一篇把"技能生命周期"拆到底的系统研究
  • 把 Agent 的 Skill 当参数来训:SkillOpt 让一个 Markdown 文件涨 23 个点
  • 别只盯着最终答案:Agent 幻觉真正危险的地方在轨迹里
  • 密集检索凭什么给高分?Xetrieval 用稀疏特征把黑箱掰开了
  • 多Agent投票投出个寂寞?这篇AAAI 2026把冷战时期的情报学方法搬了进来
  • CoT-SAE 论文解读:用稀疏自编码器看穿"思维链是否真在思考"
  • 长篇小说推理卡壳怎么办?ComoRAG 让 RAG 学会"想到一半再去翻书"
  • 给投机解码的草稿模型加一个"耳麦":从验证器隐藏态算 steering 向量,接受 token 数最多多 35 个百分点
  • 给Claude 3.7一个GitHub仓库让它干活,54个真实任务它只做对了48%
  • LogicRAG:把图谱从离线建变成推理时即时拼,GraphRAG 这条路是不是走偏了
  • RAG-R1:让模型自己决定要搜几次,把 RAG 从串行链改成自适应多查询并行
  • RALM 真的"知道自己不知道"吗?AAAI 2026 揭开检索增强模型的过度拒答陷阱
  • Reasoning-SAE 论文解读:用稀疏自编码器抓住 DeepSeek-R1 的"思考时刻"
  • KV Cache 还能再砍一刀:SparK 在通道维度上做了一件被忽略多年的事
  • 当 RAG 检索到的内容跟模型脑子里的"记忆"打起来——AAAI 2026 这篇用信息瓶颈给出了一个有理论支撑的解法
  • ToolACE-R:让模型自己决定训练吃什么、推理时改几遍
  • 别再只看准确率了:用认知负荷理论给工具智能体画一张"能力边界图"
  • TransMamba:把 Transformer 和 Mamba 塞进同一套参数里,按 token 长度自由切换
  • Conformal CPO:把保形预测嵌入 LLM Agent 编排策略,可证明可靠性 + 30% 成本节省
  • DEPO:把"少 token + 少步骤"同时塞进 KTO 的偏好优化
  • 一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的"独白"改成了"群聊"
  • DeCoRL:把推理链拆成"乐团合奏"——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作
  • GenPRM:让 1.5B 的过程奖励模型,靠"边写边推理边跑代码"打赢 GPT-4o
  • LLMdoctor:用小模型 doctor 在 token 级别给冻结的 patient 大模型做"对齐处方"
  • Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层"心理调节器"
  • Length Bias Causal 论文解读:用因果反事实拆掉 RLHF 奖励模型的"啰嗦偏好"
  • MEML-GRPO 论文解读:异构多专家互学习破解 RLVR 的奖励稀疏
  • PPPO 论文解读:前缀决定推理,RLVR 只优化开头就够了
  • 用数学训出来的 PRM,跑到代码任务上还能涨 4 个点——这事让我对"PRM 是不是被高估了"重新想了一遍
  • SubGCache 论文解读:子图级 KV 缓存把图谱 RAG 推理首字延迟砍到原来的 1/6
  • UnPRM:用"不确定性"省 60% PRM 标注成本,再回头修一遍多数投票
  • Agent 轨迹的"监督盲区":把多轮工具调用编译成长上下文训练数据,30B 干到 235B
  • ActGuide-RL:把 SFT 冷启动换成"动作引导"的智能体 RL 新范式
  • 教蒸馏教师"少看一点",反而学生学得更好——LLM 推理自蒸馏的一个隐藏旋钮
  • AstraFlow:把Agentic RL训练系统拆开重写,2.7×加速背后是一套被忽视的抽象
  • 长前缀的第三条路:把注意力"提前算好存起来",推理时直接查表
  • 论文不再线性跑流水线:AutoResearchClaw 用辩论、自愈和跨次进化把 AI 科学家推上一个台阶
  • 答对了题,却抄错了出处——CiteVQA 把多模态大模型的"归因幻觉"摆上了台面
  • 42 位作者联手发声:代码不再只是 Agent 的"输出",而是它赖以生存的"操作系统"
  • 三个推理模型轮流接力解一道题,蒸出来的学生反超老师
  • 2011 年的 DAgger 被搬回来训 SWE 智能体,4B 模型干翻一票 8B 系统
  • EndPrompt:短序列也能撑起 64K——给 LLM 长上下文塞一个"终点路标"
  • EnvFactory:85 个环境如何打掉 500+ 的工具调用 RL 数据工厂
  • EvolveMem:让 Agent 的记忆系统自己改自己的检索配置
  • 全注意力的反击:百步训练把稠密注意力"翻译"成稀疏,1M 上下文 prefill 提速 9.36 倍
  • 30B 小模型拿 IMO 金牌:SU-01 把"会做题"和"会证明"拆开来打
  • HAGE:让 Agent 的记忆图自己学会该走哪条边
  • 把 Agent 的"技能"从文本提示升级成可执行护栏:HASP 框架到底解决了什么
  • 工业质检领域的 MLLM 卡在哪了?这篇论文给了一个把工具调用塞进 RL 的解法
  • OPD 为什么这么快?腾讯混元从参数动力学给了一个让人服气的答案
  • 给Agent记忆系统泼一盆冷水:长时程多目标干扰下,所有主流方案平均只有27.9%
  • 把 7B 视觉语言模型从 32K 拉到 128K,他们只花了 50 亿 token——还顺便外推到了 512K
  • 当 Prompt 优化器在 6 个任务里 4 个原地踏步:MOCHA 用切比雪夫退火给 Agent 技能找出路
  • Many-Shot CoT-ICL:把上下文窗口当课程表来排,几何任务直接拉高 5.42 个点
  • MetaAgent-X:让设计器和执行器一起进化,自动 MAS 的天花板被端到端 RL 撞穿了
  • 一篇综述把多智能体的"协作—归因—自演化"串成一条因果链:LIFE 框架的意义
  • 用策略提示把模型推出舒适区:NudgeRL 让 8 个 rollout 跑赢 64 个
  • 给智能体一张"地图":PEEK 把长上下文里反复重学的那部分缓存了下来
  • 当模型已经"想明白"了还在絮叨——这篇论文教你怎么让它闭嘴
  • π-Bench:当 AI 助理被要求"猜你想说但没说的话",9 个旗舰模型集体翻车
  • 把多跳 RAG 写成一段 Python 程序:当推理过程从"自由发挥"变成"编译器说话"
  • RLVR 训练只跑前 15% 步,剩下的可以"算"出来——一篇让我重新审视 RL 训练动力学的论文
  • Attention 自己就是检索器:NVIDIA 把外挂 retriever 拆了,多跳 QA 反而更强
  • SDAR:让每个 token 自己决定蒸馏强度——多轮 Agent RL 的一次"非对称信任"修补
  • LLM 智能体的记忆「悄悄过期」问题:最强模型也只能拿 55 分
  • SkillsVote:当智能体技能库长到百万级,怎么不让它把Agent带歪?
  • Solvita:四智能体闭环 + 可训练知识网络,让大模型在 Codeforces 打到 Legendary Grandmaster
  • 大模型工具调用的"知行差距":它知道该调用工具,但就是不动手
  • 不要任何人工标注,PRM 也能训出来——EPFL 这套 uPRM 把"+/-"两个 token 玩出花了
  • 不要再给Agent硬塞PRM了:百度这篇AEM用一个"熵的呼吸节奏"把信用分配做了
  • ARIS:当你怀疑 AI 在"看起来很对"地胡说八道——上海交大开源的跨模型对抗科研 Harness
  • 多跳RAG总在桥接事实上栽跟头:NYU这套AdaGATE把证据装配当成了"修补题"
  • Agentic Architect:让 LLM 帮你"进化"出 CPU 微架构——预取器跑赢 SMS 21%
  • 把"提想法-写代码-跑实验-改下一版"整个交给Agent:CMU这篇把ML自动研究跑成了一条可审计的轨迹
  • BRIGHT-Pro 与 RTriever:把"推理密集型检索"从静态榜单拉回 Deep Research 真实战场
  • Claw-Eval-Live:连 Opus 都过不了 70%,工作流 Agent 离"自动化"还差一个数量级
  • Ctx2Skill:让模型读完一份文档就"自己出题考自己"——无反馈下的 skill 自演化
  • 扔掉向量库,让 Agent 直接 grep 原始语料库——一篇打破检索神话的论文
  • δ-mem:一个 8×8 的矩阵,能给 LLM 当"长期记忆"吗?
  • Eywa:当 LLM 不再"什么都自己来",让科学基础模型上桌一起聊
  • Fast-Slow Training:让 LLM 的"参数"和"上下文"一起学
  • Faithful Uncertainty:把"幻觉"重新定义为"自信地说错"——Google 在告诉你下一步该怎么走
  • 当 LLM 不断"总结过去的经验",记忆反而变坏:Agentic Memory 的隐性陷阱
  • 当工具库膨胀到4万个,Agent该怎么"找工具"?UCLA这篇FitText把检索塞进了推理循环
  • G-Zero:开放域任务里,没有 verifier 也能跑出 self-play 的奇迹?
  • HeavySkill 论文解读 重思考即智能体内化技能
  • LPO:把 GRPO 的"隐式投影"翻到台面上——RLVR 的几何统一视角
  • LenVM:把"还剩多少 token"建模成 value——给 LLM 装上了一个 token 级长度刻度尺
  • 往 Prompt 前面拼一段 Lorem 乱码,GRPO 居然就训出来了——LoPE 是怎么靠"废话"破开零优势困境的
  • NanoResearch:研究自动化跑得起来不算赢,跑出"你这个研究员要的东西"才算赢
  • 多智能体 LLM 的 RL 该往哪走?这篇 84 篇综述把"编排轨迹"作为新单元
  • Ψ-RAG:把 Tree-RAG 从"单文档玩具"推到"语料库级跨文档多跳"——比 RAPTOR 强 25.9%、比 HippoRAG 2 强 7.4%
  • RubricEM:当 Deep Research Agent 没有 ground truth,RL 还怎么训?
  • S2G-RAG:让 RAG 学会回答"我到底还差什么"——HotpotQA 上 F1 暴涨 13 个点
  • SEIF:让模型自己出题考自己——指令跟随能力的自演化训练
  • SLIM:Agent 的"技能仓库"不应该一味变大或变小——技能要有生命周期
  • SSL:把 SKILL.md 拆成三层结构化图谱——技能检索 MRR 涨 8 个点、风险评估 F1 涨 10 个点
  • Skill1:用一个奖励信号,把 Agent 的"选、用、攒"三件事一起练出来
  • SkillOS:与其训练 Agent 自己变强,不如训练一个专门管"技能库"的小模型
  • 让 Agent 先「想清楚再动手」:StraTA 给长程 Agent RL 加上一层策略抽象
  • TMAS:当并行多路推理不够用,怎么让多 Agent 真正"协同"起来?
  • ThinC:让模型用代码"思考",而不是用代码"验证"
  • UniPrefill:当稀疏注意力遇到混合架构,长上下文 Prefill 该怎么加速?
  • UniSD:不靠"更强的老师",LLM 能不能自己教自己变强?
  • Web2BigTable:用 GPT-5 mini + Gemini 3 Flash 干翻 GPT-5 High——双层 Agent + 自演化 skill bank 把 SR 拉到 7.5 倍
  • 多目标文本生成里,权重别再手写:AW-GRPO 把 GRPO 从「偏科」拉回正轨
  • 三套 Prompt 互相甩锅,怎么调?三星 × GMU 把记忆 Agent 的 APO 做成可落地闭环
  • CODI:让模型把思维链"塞"进连续空间,6 个隐向量顶 20 个 token
  • CodeRAG:把"检索什么"和"重排什么"都想清楚——仓库级代码补全的一次系统性重做
  • 别让模型「想太多」:中国联通团队把推理长度做成难度自适应——DAST 论文精读
  • 决策和执行拆开训:一篇把 Agentic RAG 写成 MDP、再用剪枝把数据造快 6 倍的工业界论文
  • 把 RL Agent 直接扔进真实互联网:DeepResearcher 撕开了 RAG 训练的舒适区
  • 好过程无需好答案:把 Agent 的规划和总结拆开训,工业 RL 才走得通
  • GRPO-LEAD:让推理模型说人话——给 GRPO 加上长度、罚分和难度三味药
  • 训RAG Agent老犯"搜了又搜"和"乱搜一气"两个毛病?LeTS给出了一个不靠人工标注的解法
  • 让模型"故意答错",反而把验证器训得更准——逻辑推理上的 ORM + Test-Time Scaling 实验
  • 不动模型、没有标签,让 Agent 在测试时把准确率干到 93.94%——EMNLP 2025 这篇 Schema Mapping 论文挺有意思
  • AWS 这篇论文让 LLM Agent 的记忆"自己长出索引",RAG Recall 暴涨 34%
  • NOVER:把 R1-Zero 的"激励训练"从数学题搬到任意文本任务,靠的不是更大的 verifier,而是一个 perplexity
  • 代码生成里 Process Reward 第一次被认真验证:PRLCoder 把"行级别"奖励喂给 PPO,难题 Pass@80 涨了 9.6 个点
  • PPO 不是 RLHF 的最优解:Google 跑了 3500 次实验、烧了 30000 TPU 小时给出最终排名
  • 让奖励模型先"想清楚"再打分:R-PRM 把 PRM 从打分器升级成推理者
  • RethinkMCTS:让MCTS会"反省",把走歪的思路改对再继续搜代码
  • Agent别再"想都不想就动手"了:SAND教大模型先在脑子里把候选动作走一遍
  • 把 Reward Model 拆成五个"专科医生"——SRM 用工程套路在 RM 上又榨了 8 个点
  • 让 o1 学会自己上网查资料:Search-o1 给大推理模型补上的那块知识短板
  • 部署即固化的Agent,怎么在线学新规则?ARIA给了一个能落地的答案
  • Think-Search-Patch:让 7B-14B 模型把仓库级 bug 修出 GPT-4 三倍的命中率
  • TokenSelect:把 KV Cache 的"块级粗筛"砸碎到 Token 级,128K→1M 上下文加速 23.84 倍
  • TurboRAG:把RAG的Prefill搬到离线,TTFT直接快9.4倍
  • WebAgent-R1:8B小模型在网页操作上把o3拉下马,多轮RL把分从8.5%硬拉到44.8%
  • 让 Web Agent 自学不停滞——WebEvolver 用一个共演化世界模型撑起多步 Look-Ahead
  • iTool:合成数据加越多越没用?哈工大+华为用 MCTS 找出"那一小片错",8B 反超 GPT-4o

2026 年 4 月

  • Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读
  • Agent-World:当智能体训练终于不用再"假装"在跟世界打交道
  • AgentSPEX:当 Agent 框架开始把"控制流"从 Python 里抠出来
  • AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难?
  • 异质任务下的记忆提取:为什么单一Prompt就是搞不定,得"先聚类再演化"
  • DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压
  • 你的检索器其实在"假装"听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA
  • GFT:把 SFT 当成"极度稀疏奖励 + 不稳定重要性权重"的 RL 重做一遍
  • 强LLM不一定是好"优化器":决定胜负的不是参数量,而是"局部精修"的能力
  • Memanto:当所有人都在堆图谱时,他们用一颗朴素的向量索引把SOTA又拿回来了
  • Too Correct to Learn:当模型"答得太对"时,GRPO反而学不动了
  • NPO:让"未来的自己"教会"现在的自己",RLVR走出Q/V困局
  • Agent Coding 测试时算力怎么花?Meta 给出了一个反直觉的答案:先做"摘要"再做"选拔"
  • 8个样本就能涨32个点?RLVR的"奇迹"为什么换到Llama身上就不复现了
  • 上下文永远不够用:SLIDERS 把长文档问答从"读完所有 token"换成"查数据库"
  • ShadowPEFT:把 LoRA 的"分散低秩"换成共享影子网络,顺便让 PEFT 模块可拆可装
  • SimpleTES:用开源 gpt-oss 把 LASSO 提速 2 倍、量子门数砍掉 24.5%——靠的不是更强的模型,而是更多的"评估"
  • 给Agent装"持续学习"开关:写技能容易,修技能难——SkillFlow揭开11个前沿模型的真实差距
  • 终端Agent的"上下文垃圾场"清理工:TACO 用一个不停进化的规则池替代手写 prompt
  • 测试时训练为什么总崩?TEMPO 用 EM 把缺失的那一步补回来
  • 撕掉"自进化"的伪装:让Agent在没人喂奖励的时候,自己摸清楚一个陌生世界
  • DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的"算力性价比"被重新定义
  • AgentSwing:长时Web Agent的上下文管理,为什么"一条路走到黑"行不通
  • AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式
  • AiScientist:扔掉对话接力棒,用文件总线撑起23小时自主科研
  • 当最强Agent也只能做对45%的任务:CocoaBench揭开统一数字智能体的真实水平
  • CodeTracer:给AI代码智能体装上"黑匣子",故障追溯一步到位
  • 从推理到智能体:LLM强化学习中的信用分配,到底难在哪?
  • 你以为你在用不同的数据集训练模型?谱系图告诉你:它们都是同一棵树上的枝条
  • LM Agent的探索和利用居然可以被量化,而且探索才是命门
  • GraSP:给Agent的技能加上因果图,多了反而更行
  • 对话AI的记忆困境:什么时候该记,什么时候该忘?
  • KnowRL:给RL训练开一份"最小处方",1.5B模型数学推理直逼7B水平
  • LLM能从零重新发明基础算法吗?遗忘后再发明,最强模型成功率90%
  • 30 GPU小时训出AIME 69.9%:Lightning OPD把在线蒸馏搬到了离线
  • 记忆增强的动态奖励塑形:MEDS如何让LLM不再"重蹈覆辙"
  • Coding Agent的记忆能跨域迁移吗?这篇论文给出了让人信服的答案
  • Reasoning Graphs:让RAG Agent不再"翻车"的证据图谱
  • OPD不是万能药:大模型在线策略蒸馏什么时候能work,什么时候一定崩
  • SPPO:别再逼Critic逐token猜了——序列级建模一招解决长链推理信用分配
  • 当AI编码Agent被"焊死"在产品里,怎么把它的核心引擎拆出来?
  • TPO:把"该学什么"和"怎么学"拆开,梯度自己知道什么时候停
  • 让Agent自动调模型:TREX用搜索树把LLM微调做成了下棋
  • $p1$:用2道题训练出的系统提示,凭什么碾压全量数据?
  • Anthropic Managed Agents: 把"脑"和"手"拆开,Agent 基础设施才算真正成熟
  • ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?
  • Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案
  • CORAL:当多个 AI Agent 学会自己搞进化,效率碾压传统搜索 3-10 倍
  • 你的AI助手会"翻旧账"吗?ClawArena告诉你,绝大多数Agent在信息变化面前一塌糊涂
  • Claw-Eval: 你以为你的 Agent 很安全?44% 的安全违规被漏检了
  • FileGram:让AI助手"记住"你怎么管文件,而不只是记住你说了什么
  • AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么?
  • 检索模型该为谁训练?当搜索的用户从人变成了AI Agent
  • LightThinker++:让大模型学会"记笔记",推理token砍掉70%还能涨点
  • 一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了
  • 不调模型调"脚手架":斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂
  • 找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架
  • RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合
  • GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了
  • 让代码模型学会"脑内编译":不执行代码也能验证对错?
  • 训练时把技能"喂"进参数里,推理时不带小抄也能满分——Skill0的技能内化之路
  • SkillX:让 Agent 学会"传帮带",自动构建可复用的技能知识库
  • 用2B小模型给Coding Agent的工具输出"挤水分":砍掉92%的token,召回率反而更高
  • Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解
  • 推理模型其实是"先决定,再编理由"?这篇论文用探针抓了个现行
  • ThinkTwice: 让模型学会"做完题再检查一遍",推理+自纠错联合训练只加3%开销
  • 不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径
  • AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon
  • 推理偷工减料?上下文是如何悄悄"缩短"大模型思考过程的
  • 30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)
  • 上下文撑破之前,Claude Code 如何"清理记忆"——源码精读(二)
  • 从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)
  • AI能自主做临床科研了吗?港中文&斯坦福联手造出第一个医学AI科学家
  • TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课

2026 年 3 月

  • AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示
  • BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍?
  • 7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化
  • 当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了
  • Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%
  • 用λ演算驯服LLM的递归:8B小模型干到70B的表现
  • 8B小模型干翻GPT-4o?用"信息不对称"让LLM自己查自己的幻觉
  • 一次推理输出多个答案:MIT用强化学习打破LLM的"熵坍缩"困局
  • LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客
  • 自蒸馏让大模型变"自信"了,推理能力却崩了——不确定性才是推理的命脉
  • 当知识图谱变成"黑箱":BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞
  • 4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化
  • 让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈
  • 不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent
  • MetaClaw:让 AI 智能体"边干边学"——双时间尺度持续进化框架
  • MiroThinker-1.7 & H1:搜索 Agent 的天花板不在"搜得多",而在"每步都靠谱"
  • 部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化
  • 递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22%
  • blocks: 历史 block 表示 [b0, b1, ..., b(n-1)]
  • 从零搭一个 AI Agent 框架,到底需要理解什么?
  • OpenSWE 论文解读:147 万美元打造最大开源 SWE 训练环境,45k Docker 环境助力代码 Agent 登顶 SWE-bench
  • OpenSeeker:首个完全开源训练数据的搜索 Agent,单次 SFT 逆袭复杂工业管线
  • ReAct:让大模型学会"边想边干"的智能体范式
  • EvoScientist:让AI科学家学会"长记性"——多智能体进化框架如何实现端到端科研自动化
  • Agent Teams 深度解读:从 Claude Code 到多智能体协作的技术全景
  • 🔬 Autoresearch 深度解读:Karpathy 的"AI 自主科研"到底有没有戏?
  • Claude Code 玩法大全:从入门到上瘾的终极指南
  • Harness Engineering 深度解读:AI Agent 时代的「缰绳与马鞍」
  • 不需要SFT,仅靠上下文强化学习就能教会LLM使用工具
  • IndexCache:跨层索引复用,让稀疏注意力推理再快一倍
  • OpenClaw-RL 论文解读:用"下一状态信号"统一所有智能体的强化学习训练
  • OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么
  • 💥 别再死磕 Prompt 和 Workflow 了!DeepSeek-R1 引爆的 Agent 端到端强化学习革命
  • 你以为大模型在"思考"?其实它只是在努力"回忆"
  • 强化学习到底给大模型带来了什么?从 Search Agent 实战到三篇顶会论文的交叉验证
  • 🎯 用模拟器"养"出一个能打的搜索Agent:8B小模型如何在无限上下文下学会推理、追问与规划
  • 当AI学会"欺骗"裁判:推理型LLM评判员的双刃剑效应
  • 图像编辑也能"看菜下饭":ADE-CoT 用自适应策略让测试时扩展快了 2-5 倍
  • BeyondSWE 论文解读:当前代码智能体能否超越单仓库修 Bug?
  • 9K条数据训4B模型,逼近DeepSeek-R1?CHIMERA用合成数据破解推理冷启动难题
  • 4B小模型干翻70B?CoVe用约束验证让工具调用Agent数据效率提升18倍
  • Legal RAG Bench:当检索拖了后腿,大模型再聪明也白搭
  • MemSifter:用4B小模型给大模型当"记忆管家",检索又快又准
  • 广度看偏好、深度看对错——Mix-GRM用8B模型打败一众开源奖励模型
  • PRISM:用过程奖励模型为DeepThink系统装上"导航仪"
  • Qwen3-Coder-Next:80B参数只激活3B,如何用"小代价"训出最强编程智能体
  • SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站
  • UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗?
  • EMPO²:让LLM智能体学会"记笔记+开卷考"的强化学习框架
  • OmniGAIA:迈向原生全模态AI智能体——基准测试与基础模型的全面突破
  • 当 AI 研究员学会了"搜索",搜索引擎该怎么配合?——深度研究中的文本排序再审视
  • Tool-R0:零数据也能训出工具调用高手——自进化LLM Agent的破局之路

2026 年 2 月

  • AD-Bench:当LLM Agent遇上真实广告投放,最强模型也只能拿69分
  • 腾讯广告的RAG实战:如何用强化学习干掉92.7%的URL幻觉?
  • GPT-5.1 也只拿了 69 分?妙问团队三篇论文揭秘:大模型在真实业务中翻车的真相与破局之道
  • Search-P1:让AI搜索代理从"只看结果"到"关注过程"的训练革命
  • 给Agent装上"大脑"有多难?一篇Survey揭示了智能体记忆系统的残酷现实
  • Avey-B:抛弃注意力机制,用"分拣员+处理器"重新定义双向编码器
  • DSDR:让推理模型别再"一条路走到黑"——双尺度多样性正则化探索框架
  • 当AI客服犯了错,怎么在不动系统的情况下"洗脑"它纠正?——ReIn: 对话错误恢复的推理植入
  • SAGE:你的推理模型其实知道何时该停下来,只是你没让它说
  • SkillOrchestra:用"技能手册"取代强化学习,让AI智能体调度又好又省
  • 扩散语言模型也能当搜索代理?DLLM-Searcher用"边想边搜"的并行范式干掉了自回归模型
  • DeepImageSearch:当图像检索需要"侦探式推理",现有AI还差多远?
  • GLM-5:当大模型学会"自己写代码",从Vibe Coding到Agentic Engineering的跨越
  • 当RAG遇上知识图谱:一个让LLM"开卷考试也翻车"的新基准
  • InnoEval:当AI也组了一个"评审委员会",它比人类审稿人更靠谱吗?
  • MemFly:当智能体的记忆学会了"断舍离"——信息瓶颈驱动的即时记忆优化
  • Nanbeige4.1-3B:3B 参数的"六边形战士"是怎么炼成的
  • 30B参数的搜索代理,凭什么在BrowseComp上和GPT-o3掰手腕?拆解REDSearcher的三段式训练框架
  • 给大模型装一台"事实核查显微镜":RLFKV 如何用细粒度知识验证治愈金融 RAG 幻觉
  • ResearchGym:当最强AI被扔进真实科研战场,它们交出了怎样的答卷?
  • TAROT:测试驱动 + 能力自适应课程,让代码强化微调"因材施教"
  • 当RAG的"压缩包"爆了:如何检测Token溢出?
  • Agent World Model:给智能体造一个"矩阵世界"——无限合成环境驱动的强化学习
  • Chain of Mindset:让AI学会像人一样"切换脑回路"
  • 把简单题"拼"成难题:Composition-RL 如何让大模型越练越聪明
  • 给大模型一本参考书,它反而考得更差了?DeR2揭示RAG推理的致命盲区
  • Dr. MAS:给多智能体LLM系统开一剂"镇静药"——稳定强化学习的理论与实践
  • 体验式强化学习:让模型学会"吃一堑长一智"
  • GISA:当最好的AI搜索助手也只有19%准确率
  • 让大模型学会"教人做事":How2Everything从98万网页中挖出35万份操作指南
  • InternAgent-1.5:让AI真正成为科学家——自主科学发现的统一智能体框架
  • 当Agent遇到"上下文腐烂":LOCA-bench揭示长上下文的真相
  • 别再给AI助理写死记忆规则了:MemSkill让智能体自己学会怎么记
  • MiniCPM-SALA:让Transformer在百万token下跑起来
  • 金融RAG的幻觉难题:用原子知识单元让模型"说实话"
  • 当AI学会"搜论文",传统搜索算法反而赢了?——SAGE基准测试揭示的反直觉发现
  • 冥想盆范式:让大模型学会管理自己的上下文
  • SkillRL:让AI智能体学会"练功升级"的递归技能强化学习框架
  • 你的多智能体系统是"真协作"还是"真烧钱"?一个指标帮你看清真相
  • AgentScope 深度解读:多智能体开发框架的工程化实践
  • 扒开 Claude Code 的底裤:为什么你的 AI Agent 总是半途而废?
  • OpenClaw Cron 深度解读:让 AI Agent 学会自主定时工作
  • AI Agent 的分身术:深度解析 OpenClaw 子代理系统设计

2026 年 1 月

  • Zep:时间知识图谱驱动的智能体记忆架构——让 AI 真正"记住"你
  • A-Mem:让LLM智能体拥有"会思考"的记忆系统
  • Plan-and-Act:让AI智能体学会"先想后做"
  • Voyager:让 GPT-4 在《我的世界》里自主探索、终身学习
AI Paper Analysis
  • 2026 年 5 月
  • HeavySkill 论文解读 重思考即智能体内化技能
  • 在shibing624/ai-paper-analysis上编辑
上一章 下一章

上一章 下一章

用MkDocs构建,使用Read the Docs提供的主题。
shibing624/ai-paper-analysis « 上一章 下一章 »