MENU

【RethinkAI】Agent数据集的调研研究

2026 年 05 月 09 日 • 文章

最近正在从事一些对Agent的研究,首先研究了一下相关的数据集,发现颇有意思,这次就根据组会汇报的草稿,总结成一个文档的形式。

主要回答两个问题:

  • 现有的Agent数据集如何分类
  • 它们覆盖了哪些任务场景

在开始调研之前,我觉得有必要给读者讲述一下所谓Agent究竟是什么。Agent这个概念我在之前的文章中其实是解释过的,简单来说就是「可以使用工具的AI」。知道这一点就够了。

发展阶段

总体来说,Agent数据集的发展方向分为三个阶段:

  • 早期:主要评测静态任务,集中于单能力、短链路的问题评估。
  • 中期:引入了可复现环境,开始测试稍稍复杂一些的能力。
  • 近期:开始强调动态性,更加贴近真实办公场景。

从 2023 年至 2024 年,Agent 数据集总体上仍以单项能力评估为主。常见拆分维度包括工具调用、网页浏览、软件工程、GUI 操作和多步推理等。2024年末发布的 TheAgentCompany 可视为一个重要转折点(示例如图 2所示):它不再仅评估某一工具能力,而是模拟员工工作流程,涵盖网页浏览、代码编写、程序运行等任务。与此同时,这一阶段仍存在任务偏短、动态性不足等问题。

到 2025 年,Agent 数据集明显向场景化与长程化演进。以网络搜索方向为例,任务从短链路网页检索转向长程信息搜集: OpenAI 的 BrowseComp包含 1266 个需持续浏览互联网的问题;Mind2Web 2 提供 130 个真实长程网页任务,并引入 Agent-as-a-judge 评估复杂且时变的答案;字节发布的 WideSearch则聚焦大规模信息搜集,包含 200 个中英文任务,结果显示多数系统成功率接近 0%,最好约为 5%。

进入 2026 年后,数据集进一步强调动态性、异步性与真实工作属性。 GAIA2将环境设定为可独立演化的时间线系统,要求 Agent 在时间约束、噪声事件、动态变化与协作条件下行动。示例任务包括「如果三分钟无人回复则叫车」与「找出当前时刻朋友最多的城市」等。

针对这个阶段变化,我的想法是,未来的方法类工作,其瓶颈一定不只在模型本身,更在于系统该如何组织多个Agent、工具和记忆。

分类学

Agent数据集可以分为四类:

  • 能力数据集:关注单项能力,环境状态少。比如HumanEval用于评估 Agent 在编程任务上的表现:给定编程问题,通过准确率等基础指标衡量模型性能。
  • 沙箱类数据集:在能力数据集的基础上,增加了可复现环境的内容,通常也有自动评分系统。以 WebArena 为例,其通过可复现的 Web 环境(如网页快照)观察模型在复杂任务中的表现,例如要求 Agent 在历史页面快照中完成检索和决策任务。
  • 工作流数据集:通常是多应用、多步骤、流程依赖的数据集。例如 TheAgentCompany引入通讯与工作流软件,使 Agent既要完成协作沟通,也要完成流程性任务。
  • 其它专项数据集:比如安全领域的数据集AgentHarm,以及评估记忆能力的数据集MemoryArena等。

这个分类背后的演进脉络也和我们之前所说的一致:从「单一能力评测」到「简化环境中的复合能力评测」,再到最近的「复杂环境中的真实环境评测」。通俗一点来说,评测对象从「模型答对了没有」逐步过渡到了「系统能否持续完成复杂的目标」。

我认为这个转折的一个标志性数据集是TheAgentCompany数据集,它的一个Data Sample如下所示:

{
  "task_id": "admin-arrange-meeting-rooms",
  "role": "Administrator",
  "instruction_summary": "根据多个团队在下周二提交的会议时间,计算最少需要预订多少个会议室;把答案发送给 Chen Xinyi,并写入 /workspace/ans.txt。",
  "required_capabilities": [
    "时间区间重叠计算",
    "资源调度",
    "RocketChat 通信",
    "文件写入"
  ],
  "expected_output": {
    "chat_message": "最少会议室数量",
    "file": "/workspace/ans.txt"
  }
}

Agent不仅需要进行文件的读写,还要进行计算和通信。当然,这个数据集在目前看来,仍然是有些简单和朴素了,不过放在过去那个全都是评估简单问题的时代,的确有着划时代的意义。

任务场景

最多的任务场景,就是网络环境数据集,也就是评估Web Agent的数据集,比如GAIA,通过联网检索+多模态的信息整合;WebLINX则将网络导航和多轮对话结合到了一起。

还有OS环境下的任务场景,比如OSWorld,要求Agent具有在桌面环境进行鼠标移动、点击的能力,完成一些任务,比如Office套件的操作等。

至于广受关注的Coding环境,则有SWE-Bench系列,主要评估代码仓库Issue和一些编程问题的能力;LongCLI-Bench则更关注长程的编码任务。