【RethinkAI】Agent数据集的调研研究

最近正在从事一些对Agent的研究，首先研究了一下相关的数据集，发现颇有意思，这次就根据组会汇报的草稿，总结成一个文档的形式。

主要回答两个问题：

现有的Agent数据集如何分类
它们覆盖了哪些任务场景

在开始调研之前，我觉得有必要给读者讲述一下所谓Agent究竟是什么。Agent这个概念我在之前的文章中其实是解释过的，简单来说就是「可以使用工具的AI」。知道这一点就够了。

发展阶段

总体来说，Agent数据集的发展方向分为三个阶段：

早期：主要评测静态任务，集中于单能力、短链路的问题评估。
中期：引入了可复现环境，开始测试稍稍复杂一些的能力。
近期：开始强调动态性，更加贴近真实办公场景。

从 2023 年至 2024 年，Agent 数据集总体上仍以单项能力评估为主。常见拆分维度包括工具调用、网页浏览、软件工程、GUI 操作和多步推理等。2024年末发布的 TheAgentCompany 可视为一个重要转折点（示例如图 2所示）：它不再仅评估某一工具能力，而是模拟员工工作流程，涵盖网页浏览、代码编写、程序运行等任务。与此同时，这一阶段仍存在任务偏短、动态性不足等问题。

到 2025 年，Agent 数据集明显向场景化与长程化演进。以网络搜索方向为例，任务从短链路网页检索转向长程信息搜集： OpenAI 的 BrowseComp包含 1266 个需持续浏览互联网的问题；Mind2Web 2 提供 130 个真实长程网页任务，并引入 Agent-as-a-judge 评估复杂且时变的答案；字节发布的 WideSearch则聚焦大规模信息搜集，包含 200 个中英文任务，结果显示多数系统成功率接近 0%，最好约为 5%。

进入 2026 年后，数据集进一步强调动态性、异步性与真实工作属性。 GAIA2将环境设定为可独立演化的时间线系统，要求 Agent 在时间约束、噪声事件、动态变化与协作条件下行动。示例任务包括「如果三分钟无人回复则叫车」与「找出当前时刻朋友最多的城市」等。

针对这个阶段变化，我的想法是，未来的方法类工作，其瓶颈一定不只在模型本身，更在于系统该如何组织多个Agent、工具和记忆。

分类学

Agent数据集可以分为四类：

能力数据集：关注单项能力，环境状态少。比如HumanEval用于评估 Agent 在编程任务上的表现：给定编程问题，通过准确率等基础指标衡量模型性能。
沙箱类数据集：在能力数据集的基础上，增加了可复现环境的内容，通常也有自动评分系统。以 WebArena 为例，其通过可复现的 Web 环境（如网页快照）观察模型在复杂任务中的表现，例如要求 Agent 在历史页面快照中完成检索和决策任务。
工作流数据集：通常是多应用、多步骤、流程依赖的数据集。例如 TheAgentCompany引入通讯与工作流软件，使 Agent既要完成协作沟通，也要完成流程性任务。
其它专项数据集：比如安全领域的数据集AgentHarm，以及评估记忆能力的数据集MemoryArena等。

这个分类背后的演进脉络也和我们之前所说的一致：从「单一能力评测」到「简化环境中的复合能力评测」，再到最近的「复杂环境中的真实环境评测」。通俗一点来说，评测对象从「模型答对了没有」逐步过渡到了「系统能否持续完成复杂的目标」。

我认为这个转折的一个标志性数据集是TheAgentCompany数据集，它的一个Data Sample如下所示：

{
  "task_id": "admin-arrange-meeting-rooms",
  "role": "Administrator",
  "instruction_summary": "根据多个团队在下周二提交的会议时间，计算最少需要预订多少个会议室；把答案发送给 Chen Xinyi，并写入 /workspace/ans.txt。",
  "required_capabilities": [
    "时间区间重叠计算",
    "资源调度",
    "RocketChat 通信",
    "文件写入"
  ],
  "expected_output": {
    "chat_message": "最少会议室数量",
    "file": "/workspace/ans.txt"
  }
}

Agent不仅需要进行文件的读写，还要进行计算和通信。当然，这个数据集在目前看来，仍然是有些简单和朴素了，不过放在过去那个全都是评估简单问题的时代，的确有着划时代的意义。

任务场景

最多的任务场景，就是网络环境数据集，也就是评估Web Agent的数据集，比如GAIA，通过联网检索+多模态的信息整合；WebLINX则将网络导航和多轮对话结合到了一起。

还有OS环境下的任务场景，比如OSWorld，要求Agent具有在桌面环境进行鼠标移动、点击的能力，完成一些任务，比如Office套件的操作等。

至于广受关注的Coding环境，则有SWE-Bench系列，主要评估代码仓库Issue和一些编程问题的能力；LongCLI-Bench则更关注长程的编码任务。

文章目录

【RethinkAI】Agent数据集的调研研究

2026 年 05 月 09 日 • 文章

发展阶段

分类学

任务场景