AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示
💡 论文标题:AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science
📅 发表时间:2026年3月19日
👤 作者:An Luo, Jin Du, Xun Xian, Robert Specht, Fangqiao Tian, Ganghua Wang, Xuan Bi, Charles Fleming, Ashish Kundu, Jayanth Srinivasa, Mingyi Hong, Rui Zhang, Tianxi Li, Galin Jones, Jie Ding
📎 论文链接:https://arxiv.org/abs/2603.19005
🎯 核心摘要
"AI要取代数据科学家"——这个说法你一定听过不少。但当AI Agent真的被放到需要领域知识的数据科学竞赛中时,结果如何?
这篇论文组织了一场29支队伍、80人参与、横跨6个行业的10天竞赛(AgentDS),用17个真实领域的数据科学挑战来测试AI Agent和人类数据科学家的能力。结果很直白:GPT-4o直接提示排名第17(29队中),得分0.143,低于中位数;Claude Code排名第10,得分0.458,只是中等偏上。排名前9的全是人类主导的团队,最强的队伍得分0.87——几乎是Claude Code的两倍。
核心结论:在需要领域专业知识的数据科学任务上,AI Agent远未达到替代人类的水平。最有效的模式是人机协作——人类把握方向和领域判断,AI加速执行和迭代。
定位:一份有价值的实证报告,用真实竞赛数据给"全自动AI数据科学"的叙事泼了一盆冷水。
📖 问题动机:AI Agent真的能做数据科学吗?
过去一年,各种"AI数据科学家"产品层出不穷——从自动EDA到自动特征工程再到自动建模。很多团队宣称AI Agent能端到端地完成数据科学任务。但一个关键问题没人认真回答过:在需要真实领域知识的场景中,AI Agent到底表现如何?
现有的数据科学benchmark有两个缺陷: 1. 领域浅薄:大多使用公开的Kaggle数据集,不涉及真实的行业知识 2. 评估单一:只看预测精度,不考虑特征工程、模型选择的合理性
AgentDS的设计就是为了填这个坑:6个行业、17个挑战、多模态数据(图片、文本、PDF、JSON)、需要真实的领域理解才能做好。
🏗️ 竞赛设计
覆盖的行业和任务
| 行业 | 挑战数 | 任务类型 | 数据特点 |
|---|---|---|---|
| 商业 | 2-3 | 分类/回归 | 交易数据、客户行为 |
| 食品生产 | 2-3 | 预测/排序 | 生产参数、质量检测 |
| 医疗健康 | 2-3 | 分类 | 临床数据、多模态 |
| 保险 | 2-3 | 回归/分类 | 理赔数据、风险评估 |
| 制造业 | 2-3 | 预测 | 传感器数据、设备状态 |
| 零售银行 | 2-3 | 分类/排序 | 客户信用、营销响应 |
每个挑战都经过精心设计,确保: - 需要领域特定的推理(不是通用的数据清洗就能搞定) - 包含多模态数据(不只是表格) - 反映真实世界的复杂度(缺失值、噪声、类别不平衡等)
参赛规模
- 29支队伍,80名参与者
- 10天竞赛周期
- 2个AI基线:GPT-4o直接提示、Claude Code Agent模式
🧪 竞赛结果
总体排名

图1:29支队伍+2个AI基线的总分排名(Quantile Score)。绿色为人类团队,橙色为GPT-4o基线(0.143,排名17),紫色为Claude Code基线(0.458,排名10)。虚线为中位数(0.156)。排名前9的全是人类主导的团队,最高分0.87。
几个关键数字:
| 排名 | 选手 | 得分 | 性质 |
|---|---|---|---|
| 1 | Team 1 | 0.87 | 人类团队 |
| 2 | Team 2 | 0.83 | 人类团队 |
| 3 | Team 3 | 0.71 | 人类团队 |
| ... | ... | ... | ... |
| 10 | Claude Code | 0.458 | AI基线 |
| ... | ... | ... | ... |
| 17 | GPT-4o | 0.143 | AI基线 |
按领域拆解

图3:六个行业领域的得分分布。不同领域难度差异明显,AI基线在某些领域(如需要多模态理解的医疗任务)表现尤其差。

图4:17个具体挑战的参赛者得分分布,展示了不同任务的难度差异和AI基线在各任务上的表现。
🔬 深入分析:AI为什么做不好?
AI Agent的三大短板
1. 领域推理能力不足
AI Agent在处理需要行业知识的特征工程时表现糟糕。比如在保险领域,人类数据科学家知道"索赔金额与事故类型的交互特征"很重要,但AI只会做通用的统计变换(标准化、one-hot编码),不会构造有业务含义的交叉特征。
2. 多模态数据处理薄弱
当数据集包含PDF报告、产品图片、非结构化文本时,AI Agent要么忽略这些数据源,要么处理方式粗糙(比如只提取PDF中的数字,忽略上下文)。人类能把这些非结构化信息转化为有效特征。
3. 策略判断缺失
数据科学不只是"跑模型"——选什么模型、怎么做验证、什么时候该停止调参,都需要判断。多个参赛团队反馈,他们一开始尝试全自动AI方案,但很快发现AI给出的建议不靠谱(比如在小数据集上用深度学习),最终转向人工主导+AI辅助的模式。
人机协作为什么有效?
竞赛中表现最好的团队,都采用了类似的协作模式:
人类(战略层) AI(执行层)
├── 诊断问题性质 ├── 快速生成代码模板
├── 设计特征工程策略 ├── 批量实验多种模型
├── 注入领域知识 ├── 自动化调参
├── 过滤AI的错误建议 ├── 数据预处理自动化
└── 最终决策和质量把控 └── 结果可视化
关键是人类保留了控制权:AI负责"干活",人类负责"想方向"。人类能提供的三种不可替代的能力:
- 因果推理:知道特征之间的业务因果关系,不只是统计相关
- 领域接地:理解数据背后的业务含义,识别数据中的异常是bug还是真实现象
- 错误纠正:能判断AI的建议是否合理,及时拦截错误方向
🤔 批判性思考
这篇报告的价值
-
实证数据有说服力:不是理论分析,而是29支队伍的真实竞赛结果。"GPT-4o排名17/29"这个数据比任何理论论证都更有冲击力
-
挑战了主流叙事:在"AI Agent替代一切"的狂热中,这份报告是少有的冷静声音。数据说明在领域密集型任务上,AI还差得远
-
人机协作的实证:不是空喊"人机协作很重要",而是通过竞赛证明了协作模式确实产出最好的结果
局限和需要注意的点
-
AI基线可能没做到最好:GPT-4o用的是"直接提示",Claude Code用的是"Agent模式"——但这两种方式都可能不是最优的。如果用更精心设计的prompt、RAG增强领域知识、或者用专门的数据科学Agent框架(如AutoML+LLM),AI基线可能会好得多。报告没有测试这些更强的AI方案
-
竞赛时长的影响:10天的竞赛周期对人类有利——人类可以深入理解数据,做多轮迭代。如果是1小时限时赛,AI的速度优势可能更明显
-
参赛者水平分布不均:29支队伍中很多得分接近0,说明不少队伍可能是初学者。AI基线排名"中下游"部分是因为它在和一些很弱的团队比较
-
领域知识的获取方式在变:论文的结论建立在"AI缺乏领域知识"的前提上。但随着RAG和领域专属微调技术的发展,AI获取领域知识的能力正在快速提升。这个结论的时效性可能有限
与"AI数据科学家"产品的关系
市面上的AI数据科学产品(如Julius AI、ChatGPT的Code Interpreter等)主要面向通用数据分析场景——简单的可视化、基础的统计分析、标准的ML流程。AgentDS测试的是需要深度领域知识的场景,难度高得多。不能把"AI在AgentDS上表现差"等同于"AI在所有数据科学场景都没用"。
💡 工程启示
-
别急着用AI全自动化数据科学:在领域知识密集的场景中,全自动AI方案的表现不如你想的那么好。最有效的路径是人机协作,而非替代
-
AI最擅长的是加速执行,不是制定策略:把AI当作"能写代码的助手"比当作"能做决策的专家"更现实。让AI跑实验、写代码、做可视化,但关键决策留给人
-
领域知识注入是关键:如果你要做某个垂直行业的AI数据科学产品,单纯的通用大模型不够。你需要RAG领域文档、领域专属的prompt模板、或者微调
-
评估AI能力要用领域任务:在通用benchmark上表现好,不代表在你的业务场景中表现好。建议在自己的领域数据上做A/B测试,而不是只看排行榜
觉得有启发的话,欢迎点赞、在看、转发。跟进最新AI前沿,关注公众号:机器懂语言