通义DeepResearch技术深度剖析与操作框架研究报告
1. 执行摘要与研究背景
人工智能的发展正处于一个关键的转折点,即从静态的问答系统向具备自主行动能力的智能体(Agent)演进。在这一进程中,阿里巴巴通义实验室推出的 Tongyi DeepResearch (通义DeepResearch)代表了一个里程碑式的突破。作为一个开源的智能体大语言模型,它不仅在技术架构上展示了从传统的指令跟随向自主深度研究能力的跨越,更通过一种全新的“端到端智能体训练框架”,重新定义了AI解决复杂长时程任务的方法论1。
本报告旨在为非该领域的专业人士及行业观察者提供一份详实、逻辑严密且通俗易懂的技术解析。我们将深入剖析该模型如何通过仅激活33亿参数(在总计305亿参数的架构中)来实现超越闭源商业模型的性能,特别是在Humanity's Last Exam (人类最后的考试)和BrowseComp 等高难度基准测试中的卓越表现2。报告将详细阐述其核心创新点——包括结合了“智能体中期训练”(Agentic Mid-Training)与“智能体后期训练”(Agentic Post-Training)的混合训练范式,以及完全自动化的合成数据流水线4。通过对“ReAct”与“Heavy Mode”两种推理模式的对比分析,本报告将揭示通义DeepResearch如何弥合前沿专有模型与开源社区之间的鸿沟,为未来的通用人工智能(AGI)研究提供可复现的蓝图。
2. 深度研究智能体的兴起与定义
2.1 从聊天机器人到研究专家的演进
要理解通义DeepResearch的革命性意义,首先必须审视传统大语言模型(LLM)的局限性。早期的LLM,如ChatGPT的早期版本,本质上是基于概率的文本生成器。它们擅长处理“一次性”的查询,例如“法国的首都是哪里?”或“写一首关于春天的诗”。然而,当面对需要长时间跨度、多步骤推理和大量信息验证的复杂任务时——即所谓的“长时程任务”(Long-Horizon Tasks)——传统模型往往力不从心。
例如,如果要求一个普通AI“分析2025年地缘政治关税政策对特斯拉与比亚迪全球供应链韧性的具体影响”,传统模型可能会产生幻觉(Hallucination),编造数据,或者因为上下文窗口(Context Window)的限制而“忘记”任务的初衷5。这种任务要求AI不仅要会“说”,更要会“做”:它需要像人类研究员一样,规划研究路径、使用搜索引擎、阅读大量文档、剔除无关信息、修正错误的假设,并最终综合成一份有理有据的报告。这种能力被称为“深度研究”(Deep Research)6。
2.2 定义“深度研究”的核心要素
通义DeepResearch并非简单的搜索增强工具,它是一个具备完整认知架构的智能体。深度研究在AI语境下包含以下几个不可或缺的维度:
自主规划(Autonomous Planning): 智能体需要能够将一个模糊的高层目标(如“调查某技术的市场前景”)拆解为一系列可执行的具体步骤(如“搜索行业报告”、“对比竞争对手数据”、“分析技术瓶颈”)。
信息觅食(Information Foraging): 这不仅是简单的关键词搜索,而是包括了对搜索结果的评估、对网页内容的深度阅读(Visit)、对相关学术文献的挖掘(Google Scholar),以及对本地文档的解析(File Parser)1。
多步推理与自我修正(Multi-step Reasoning & Self-Correction): 在研究过程中,智能体必须能够识别死胡同。如果一次搜索未果,它不能简单地放弃或胡编乱造,而必须像人类一样反思:“也许我的关键词不对”,然后尝试新的策略7。
长文本综合(Long-Context Synthesis): 面对海量的互联网信息,智能体必须具备极强的信息压缩与综合能力,从数十万字的素材中提炼出核心洞见。
2.3 通义DeepResearch的系统定位
通义DeepResearch正是为了解决上述挑战而生。它基于Qwen3-30B-A3B-Base 模型构建,采用了一种先进的**混合专家(Mixture-of-Experts, MoE)**架构8。在这个架构中,模型虽然拥有305亿的总参数量,但在处理每一个具体的字或词(Token)时,只激活其中最相关的33亿参数。这种设计精妙地平衡了“博学”与“效率”:模型拥有庞大的知识库(总参数),但在运行时却像轻量级模型一样快速且低成本9。这使得它能够在普通的硬件条件下运行复杂的深度研究任务,极大地降低了部署门槛,体现了开源项目对技术民主化的推动10。
特性指标 通义 DeepResearch 30B 传统 30B 稠密模型 优势分析 总参数量 30.5 Billion ~30 Billion 具备同等的知识储备与表达潜力 激活参数量 3.3 Billion ~30 Billion 计算量减少近90%,推理速度显著提升 任务定位 长时程深度信息搜索 通用对话/指令遵循 专精于复杂任务规划与工具使用 训练范式 端到端智能体训练(Mid+Post) 预训练 + 指令微调 内置智能体归纳偏置,具备原生推理能力
3. 核心设计原则:智能体训练的范式转移
通义DeepResearch的成功并非偶然,而是源于其研发团队对智能体训练本质的深刻洞察。报告指出,传统的LLM训练方法——即海量文本预训练(Pre-training)加上简单的指令微调(Post-training)——并不足以培养出优秀的智能体。为了解决这一问题,通义团队确立了三大核心设计原则。
3.1 智能体训练流水线的重构
传统的模型训练往往假设模型在预训练阶段就学会了所有知识,微调只是为了让它“听话”。然而,智能体所需的“行动逻辑”——如何根据环境反馈调整策略——在普通的互联网文本中是非常稀缺的。因此,通义DeepResearch引入了一个全新的阶段:**智能体中期训练(Agentic Mid-Training)**4。
这一阶段位于预训练和后期微调之间,其目的是在模型接触具体的任务指令之前,先赋予其一种“智能体归纳偏置”(Agentic Inductive Bias)。这意味着模型在这一阶段大量学习的是“规划-行动-观察”的模式,而非单纯的语言续写。随后,在**智能体后期训练(Agentic Post-Training)**阶段,模型通过强化学习(RL)进一步内化这些能力,学会在复杂的真实环境中生存和优化1。这种分阶段的训练策略有效地解决了模型在学习通用语言能力与特定行动能力之间的优化冲突11。
3.2 以合成数据为中心的扩展策略
数据是AI的燃料,但对于深度研究任务而言,“燃料”极其昂贵。要获取人类专家在解决复杂科学问题时的完整思维过程和操作记录,成本高昂且难以规模化。通义DeepResearch采取了激进的**合成数据(Synthetic Data)**策略,利用现有的高水平模型来生成训练数据,从而摆脱了对人工标注的依赖4。
这种策略不仅仅是为了省钱,更重要的是它能实现超越人类数据的质量控制。通过算法,研究人员可以生成大量极具挑战性的“超人类”(Super-human)问题,并利用形式化方法(如集合论)精确控制问题的难度和逻辑结构12。这形成了一个“数据飞轮”(Data Flywheel):模型越强,它生成的合成数据质量就越高;数据质量越高,训练出的下一代模型就越强。这种自我进化的机制是通义DeepResearch能够快速迭代并达到SOTA水平的关键驱动力4。
3.3 环境交互中的进化学习
智能体的智慧不仅仅来自于静态的数据,更来自于与环境的互动。然而,直接在真实的互联网上训练智能体面临着巨大的挑战:网页内容随时在变(非平稳性),且频繁访问外部网站成本高昂且速度缓慢。
为了解决这一矛盾,通义DeepResearch设计了三种层次的交互环境:
先验世界环境(Prior World Environment): 这是一个完全静态的、基于模型内部知识构建的环境。智能体在这里练习挖掘已有知识,无需任何外部交互,成本为零,极其稳定1。
模拟环境(Simulated Environment): 这是一个“风洞”实验室。团队构建了一个离线的、基于快照的互联网副本(如2024年的维基百科镜像)。智能体可以在这里以极高的速度进行搜索和浏览训练,而不受网络波动的影响,且结果可复现1。
真实世界环境(Real-World Environment): 这是最终的演兵场。智能体接入真实的Google搜索和在线工具。虽然成本高且不稳定,但这能确保证明智能体在现实世界中的可用性。
通过在不同阶段灵活切换这三种环境,通义DeepResearch实现了训练效率与实用性的完美平衡3。
4. 训练框架详解:打造AI研究员的完整路径
通义DeepResearch的“端到端智能体训练框架”是其技术报告中最具创新性的部分。本节将详细拆解这一框架的三个关键阶段,解释它是如何一步步将一个通用模型塑造成专业研究员的。
4.1 第一阶段:智能体中期训练(Agentic Mid-Training)—— 奠定行动基础
中期训练可以被视为智能体的“基础教育”阶段。在此阶段,模型的主要任务不是学习具体的知识点,而是掌握作为研究员的基本思维模式和行为规范。
4.1.1 循序渐进的上下文扩展
研究任务通常涉及大量的阅读材料,因此模型的“内存”至关重要。中期训练采用了分阶段的上下文扩展策略。最初,模型在32K(约2.4万汉字)的上下文窗口下进行训练,学习基本的交互逻辑。随后,窗口扩展至128K(约10万汉字),模型开始接触大量的长序列数据4。这种循序渐进的策略不仅提高了训练效率,还确保了模型在处理长篇大论时不会“迷失方向”,能够保持前后逻辑的一致性。
4.1.2 全方位的行为模拟
为了让模型学会如何像专家一样思考,团队合成了覆盖研究全流程的行为数据:
问题合成(Question Synthesis): 利用知识图谱,系统自动生成了海量的研究级问题。这些问题不是简单的百科问答,而是需要多步推理的复杂查询。例如,它不会问“谁发明了青霉素?”,而是问“比较青霉素与链霉素在二战期间的生产规模及其对战后抗生素耐药性政策的影响”13。
规划行动(Planning Action): 模型学习如何将上述复杂问题拆解为子任务。它学习到在回答宏大问题前,必须先收集基础数据,再进行对比分析1。
推理行动(Reasoning Action): 这是训练逻辑链条的关键。模型学习如何从杂乱无章的搜索结果中提取证据,并进行演绎推理。
决策行动(Decision-Making Action): 系统显式地建模了决策过程。在每一步,模型都要评估当前路径是否有效,是否需要切换工具或改变搜索词。这种训练赋予了模型“元认知”能力,即对思考的思考3。
4.2 第二阶段:智能体后期训练(Agentic Post-Training)—— 专业技能冷启动
如果中期训练是通识教育,那么后期训练的第一步——有监督微调(SFT)——就是专业的职业培训。这一阶段被称为“冷启动”(Cold Start),目的是让模型具备参与实战的基本资格。
4.2.1 自动化构建“超人类”数据集
在这一阶段,数据的质量决定了模型的上限。通义团队通过自动化流水线构建了极高难度的数据集:
图谱构建与子图采样: 系统首先基于互联网数据构建庞大的知识图谱,然后从中截取复杂的子图。
不确定性注入(Uncertainty Injection): 这是提升难度的关键技术。系统会有意模糊问题中的关键信息,迫使模型进行更广泛的搜索和更深层的推理。例如,将“查找爱因斯坦的论文”变为“查找那位在1905年发表了四篇奇迹年论文的专利局职员的后续引力研究”12。
形式化难度控制: 利用集合论对信息搜索问题进行建模,确保生成的每一个问题都在逻辑上是可解的,同时在难度上是可控的。这种严谨的数学方法避免了合成数据中常见的逻辑漏洞12。
4.2.2 混合训练范式
为了适应不同的应用场景,SFT阶段采用了混合训练策略,同时训练两种模式:
ReAct模式: 经典的“思考-行动-观察”循环,适合标准任务。
上下文管理模式(Context Management Mode): 这是一种高级模式,要求模型在每一步都对之前的历史进行摘要和压缩。这就像要求学生在做长篇阅读理解时,每读一段都要写一句总结,而不是试图背下全文。这种训练极大地增强了模型处理超长任务的能力,防止了随着交互轮数增加而导致的性能下降1。
4.3 第三阶段:智能体强化学习(RL)—— 实战中的自我进化
这是智能体真正“开悟”的阶段。通过强化学习,模型不再是简单地模仿人类,而是通过不断的试错来发现最优解。
4.3.1 统一沙箱环境(Unified Sandbox)
在真实互联网上进行强化学习充满了噪音。网页加载失败、API超时等问题会给模型错误的反馈(即模型可能会因为网络故障而认为自己的搜索策略是错的)。为此,通义团队构建了一个统一沙箱 。它对所有的工具调用(搜索、代码解释器等)进行了封装,提供了自动重试、缓存和容错机制。这确保了模型收到的奖励信号纯粹反映其策略的优劣,而非环境的稳定性1。
4.3.2 组相对策略优化(GRPO)算法
通义DeepResearch采用了GRPO 算法,这是一种高效的强化学习方法。与传统的PPO算法需要一个额外的“评论家”(Critic)模型不同,GRPO通过让模型生成一组不同的解,然后对比这组解的优劣来更新策略。这种方法极大地节省了计算资源2。
4.3.3 动态数据筛选与“课程学习”
训练过程中的数据不是一成不变的。系统会实时监控模型的表现:
如果模型对某些问题已经能100%解决,这些问题就会被移除,以防止“过拟合”(死记硬背)。
如果某些问题模型完全无法解决,也会暂时移除,以免模型“习得性无助”。
系统会不断从备份池中补充难度适中的新问题。这种动态的课程学习机制(Curriculum Learning)确保了模型始终处于最佳的学习区,推动其能力不断攀升4。
5. 推理范式与操作模式
在实际应用中,通义DeepResearch提供了两种截然不同的操作模式,用户可以根据任务的难度和对精度的要求进行选择。
5.1 ReAct模式(标准模式)
这是模型的默认工作方式,适用于大多数中等难度的研究任务。
工作流: 模型严格遵循“思考(Thought) -> 行动(Action) -> 观察(Observation)”的单线程循环。它先分析当前状态,决定下一步操作(如搜索),执行操作,读取结果,然后再进行下一轮思考。
特点: 这种模式反应较快,逻辑清晰,易于调试。但在处理极其复杂的任务时,可能会因为步骤过多而导致遗忘早期的细节14。
5.2 Heavy模式(IterResearch/迭代研究模式)
这是通义DeepResearch的“杀手锏”,专门为解决类似博士级研究课题的超长时程任务而设计。它引入了“测试时计算扩展”(Test-Time Scaling)的概念,即通过消耗更多的推理时间来换取更高的质量。
并行研究架构: 在这个模式下,系统会同时启动 $n$ 个并行的智能体。每个智能体就像是一个独立的研究助理,负责探索问题的不同侧面。例如,在研究“某药物的副作用”时,一个智能体可能专注于临床试验数据,另一个专注于患者论坛的反馈,第三个专注于药理学机制9。
马尔可夫状态重构(Markovian State Reconstruction): 为了解决多智能体带来的信息过载问题,Heavy模式采用了极强的信息压缩技术。每个智能体不保留原始的冗长日志,而是维护一个不断更新的“研究报告摘要”($S_t$)。在每一步,智能体只基于当前的摘要和最新的发现来决策,而不是回顾整个历史。这使得智能体能够进行数百轮的交互而不崩溃1。
综合合成(Integrative Synthesis): 最后,一个总控模型会收集所有并行智能体的摘要报告,进行去重、验证和逻辑整合,生成最终的深度报告。
效果: 实验数据显示,Heavy模式在Humanity's Last Exam 基准上的得分从ReAct模式的32.9%显著提升至38.3%,证明了这种通过计算换智能的策略的有效性3。
6. 基准测试与实证分析
通义DeepResearch在多个高难度基准测试中展现了卓越的性能,证明了其架构和训练策略的优越性。
6.1 核心基准测试解读
为了客观评价模型的“智商”,我们需要理解这些测试的难度:
Humanity's Last Exam (HLE): 被称为“人类最后的考试”,这是一个专门设计来难倒AI的测试集。它包含了数学、物理、人文等领域的专家级问题,且设计时刻意避免了可以通过简单谷歌搜索找到答案的题目(Google-proof)。在这个测试中,许多顶尖模型的得分极低,而通义DeepResearch取得了SOTA成绩15。
BrowseComp: 这是一个专注于“网页浏览能力”的测试。题目通常设计得非常刁钻,需要智能体在多个网页间跳转、拼凑线索才能找到答案。例如:“找出那个在X电视剧中出现过,且有着Y背景故事的虚构角色”17。
GAIA (General AI Assistants benchmark): 测试通用AI助手在复杂任务规划和工具使用方面的能力,涵盖了文本、图像等多种模态1。
6.2 性能对比分析
下表展示了通义DeepResearch在关键指标上与OpenAI的Deep Research及其他前沿模型的对比。请注意,通义DeepResearch以30B的参数量级对抗闭源的超大模型,展现了极高的效率比。
基准测试 (Benchmarks) 通义 DeepResearch (30B) OpenAI o3 / Deep Research DeepSeek-V3.1 GLM-4.5 备注 Humanity's Last Exam 32.9% (Heavy: 38.3%)26.6% (Deep Research) 29.8% 21.2% 通义在专家级推理中表现出领先优势10 BrowseComp (English) 43.4% 51.5% 30.0% 26.4% 虽略逊于OpenAI的专用系统,但显著优于通用大模型 BrowseComp-ZH (中文) 46.7% 42.9% 49.2% 37.5% 在中文复杂搜索语境下具有显著优势10 GAIA 70.9% 67.4% - 66.0% 展现了强大的通用任务规划能力 WebWalkerQA 72.2% 71.7% 61.2% 65.6% 在网页遍历和信息提取方面表现稳健
注:数据来源于技术报告及第三方独立评测,部分OpenAI数据为对比基线1。
通过数据可以看出,通义DeepResearch在多数基准上不仅超越了开源模型,甚至在特定领域(如中文搜索、复杂考试)击败了强大的闭源商业模型。这一成就对于一个参数量仅为30B的模型来说是极具突破性的,证明了“小模型+大搜索+强训练”路线的可行性。
7. 工具生态与基础设施
一个强大的智能体离不开其手中的工具。通义DeepResearch配备了一套标准化的工具集,这些工具的设计直接影响了其在现实世界中的表现。
7.1 五大核心工具
搜索引擎(Search): 能够并行处理多个查询请求,不仅返回链接,还包含摘要片段。这是智能体获取外部信息的主要触角。
网页浏览(Visit): 智能体的“眼睛”。它能深入访问特定URL,利用内置的阅读模型解析网页内容,提取与当前研究目标相关的细节。这一步至关重要,因为搜索结果往往只是冰山一角1。
Python解释器(Python Interpreter): 智能体的“大脑外挂”。它允许智能体编写并执行代码。这对于处理数学计算、数据可视化、或者解析复杂的CSV/Excel文件至关重要。例如,在分析股市数据时,智能体可以直接写代码计算波动率,而不是自己去估算1。
谷歌学术(Google Scholar): 专为科研任务设计,使智能体能够检索经同行评审的学术文献,确保信息的权威性1。
文件解析器(File Parser): 允许用户上传本地文件(PDF, Word等),智能体可以将这些私有数据与互联网信息结合进行综合分析1。
7.2 基础设施的鲁棒性设计
在技术报告中,团队特别强调了基础设施的重要性。为了支持大规模的强化学习训练,系统必须具备极高的并发处理能力和容错性。
并发控制: 为了防止对外部网站造成DDoS攻击般的压力,系统内置了QPS(每秒查询率)限制。
自动降级与备份: 当主搜索引擎(如Google)响应超时,系统会自动切换到备用引擎。这种工程上的细腻设计保证了智能体训练的连续性,防止因外部因素导致的训练失败1。
8. 讨论与未来展望
8.1 局限性与挑战
尽管通义DeepResearch取得了令人瞩目的成就,但技术报告也诚实地列举了当前的局限性,这为未来的研究指明了方向。
上下文窗口限制: 目前128K的上下文虽然已经很大,但对于极端复杂的长时程任务(如撰写一本专著或进行全网舆情分析)仍然显得捉襟见肘。未来的方向可能是探索无限上下文或更高效的记忆压缩机制18。
模型规模: 30B参数虽然效率极高,但在绝对的知识储备和逻辑推理上限上,可能仍不及GPT-5级别的万亿参数模型。通义团队暗示了更大规模模型正在研发中18。
用户偏好对齐: 目前的报告生成主要关注信息的准确性和完整性,但在如何更好地适应不同用户的个性化阅读偏好(如更幽默或更严肃的文风)方面,仍有提升空间18。
8.2 “苦涩的教训”与智能的未来
报告引用了Richard Sutton著名的文章《苦涩的教训》(The Bitter Lesson),强调了通用计算方法的胜利。通义DeepResearch的成功再次印证了这一点:与其人工编写复杂的搜索规则,不如构建一个能够利用大规模算力和数据进行自我学习的系统。随着算力的进一步增长,我们可以预期,基于这种范式的智能体将在能力上继续呈指数级跃升,最终可能彻底改变人类获取和处理信息的方式1。
8.3 开源的意义:技术民主化
最后,通义DeepResearch最深远的影响可能在于其开源性质。在此之前,具备“深度研究”能力的AI几乎都是闭源的商业产品。通义DeepResearch的开源,意味着全球的研究者、初创公司和学生都可以免费获取这一顶级技术。这不仅打破了技术垄断,更为构建特定领域的垂直智能体(如法律助手、医疗研究员)提供了最佳的基座模型,极大地加速了AGI生态的繁荣3。
9. 结论
通义DeepResearch不仅仅是一个新的大语言模型,它代表了AI从“阅读者”向“研究者”的身份转变。通过创新的端到端训练框架、合成数据驱动的自我进化机制,以及精妙的混合推理架构,它成功地在有限的参数规模下实现了世界级的深度研究能力。对于开发者而言,它是一个强大的开源工具;对于行业而言,它是一个高效的生产力引擎;而对于整个人工智能领域,它则是一个关于如何通过系统性设计来激发机器自主智能的生动案例。随着这一技术的普及与迭代,我们正加速迈向一个AI能够真正成为人类智力延伸的新时代。
引用的著作
Tongyi DeepResearch Technical Report.pdf
Tongyi DeepResearch Technical Report - arXiv, 访问时间为 十二月 9, 2025, https://arxiv.org/html/2510.24701v2
Tongyi DeepResearch Technical Report | alphaXiv, 访问时间为 十二月 9, 2025, https://www.alphaxiv.org/overview/2510.24701v2
Tongyi DeepResearch Technical Report - arXiv, 访问时间为 十二月 9, 2025, https://arxiv.org/html/2510.24701v1
How to Build AI Agents That Work: Deep Agents, Research Agents & Framework Choices. | by Sindhuja A | Nov, 2025 | Medium, 访问时间为 十二月 9, 2025, https://medium.com/@sindhuja.codes/how-to-build-ai-agents-that-work-deep-agents-research-agents-framework-choices-c4d465162325
The Differences between Deep Research, Deep Research, and Deep Research - Han Lee, 访问时间为 十二月 9, 2025, https://leehanchung.github.io/blogs/2025/02/26/deep-research/
Alibaba-NLP/DeepResearch: Tongyi Deep Research, the Leading Open-source Deep Research Agent - GitHub, 访问时间为 十二月 9, 2025, https://github.com/Alibaba-NLP/DeepResearch
Tongyi DeepResearch 30B A3B Free Chat Online - Skywork.ai, 访问时间为 十二月 9, 2025, https://skywork.ai/blog/models/tongyi-deepresearch-30b-a3b-free-chat-online-2/
Tongyi DeepResearch (30B MoE): An Agentic LLM Built for Long-Horizon Web Research, 访问时间为 十二月 9, 2025, https://pub.aimind.so/tongyi-deepresearch-30b-moe-an-agentic-llm-built-for-long-horizon-web-research-60aed83883fb
Alibaba Launches Tongyi DeepResearch to Rival OpenAI - ASO World, 访问时间为 十二月 9, 2025, https://marketingtrending.asoworld.com/en/discover/alibaba-launches-tongyi-deepresearch-to-rival-openai/
Daily Papers - Hugging Face, 访问时间为 十二月 9, 2025, https://huggingface.co/papers?q=BrowseComp-ZH
Tongyi DeepResearch: Goodbye ChatGPT DeepResearch | by Mehul Gupta | Data Science in Your Pocket | Medium, 访问时间为 十二月 9, 2025, https://medium.com/data-science-in-your-pocket/tongyi-deepresearch-goodbye-chatgpt-deepresearch-058b40cbc772
Best Practices for Benchmarking - Moonshot AI Open Platform - Kimi Large Language Model API Service, 访问时间为 十二月 9, 2025, https://platform.moonshot.ai/docs/guide/benchmark-best-practice
A Deep Dive into Open-Source AI Researcher Tongyi DeepResearch - ADaSci, 访问时间为 十二月 9, 2025, https://adasci.org/a-deep-dive-into-open-source-ai-researcher-tongyi-deepresearch/
Humanity's Last Exam (HLE) Benchmark - Emergent Mind, 访问时间为 十二月 9, 2025, https://www.emergentmind.com/topics/humanity-s-last-exam-hle-benchmark
Humanity's Last Exam - arXiv, 访问时间为 十二月 9, 2025, https://arxiv.org/html/2501.14249v1
BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents - arXiv, 访问时间为 十二月 9, 2025, https://arxiv.org/html/2504.12516v1
How Far Are We from Genuinely Useful Deep Research Agents? - arXiv, 访问时间为 十二月 9, 2025, https://arxiv.org/html/2512.01948v1