一、“人类最后的考试”迎来新里程碑
“人类最后的考试”(HLE,Humanity’s Last Exam)被称作史上最难大模型测试集。今年年初刚推出时,包括o1在内,没有模型得分能超过10分。直到近期,最高分也仅为26.9分,由Kimi-Research和Gemini Deep Research并列保持。
7月,上海交大联合深势科技团队发布新研究,在HLE上一举拿下32.1分,创下新纪录。这是该测试集首次有系统得分超过30分,且成果来自国内团队。团队同时推出工具增强推理智能体X-Master、多智能体工作流系统X-Masters,并将方案开源。
二、HLE:究竟是怎样的“考试”?
HLE由AI安全中心和Scale AI发起,题目来自500多家机构的1000多名学者,涵盖高校、研究所、企业、医疗机构及独立研究者,OpenAI、Anthropic、谷歌DeepMind、微软研究院等均在其中。
题目需经大模型和人工双重审查,需达到研究生难度,且不能被检索到,还得有明确答案和评判方式,开放式问题不会入选。最终入围题目3000多道,涵盖数理化、生物医药、工程、社会科学等多个学科,细分学科超100个。按大类分,数学占比42%,物理和生物医药各占11%。
部分题目考察视觉能力,比如解读罗马铭文中的帕尔米拉文;有些需结合视觉与文本,如有机化学中通过结构图分析反应;数学、计算机科学题目对推理要求极高,例如涉及函子、自然变换、马尔可夫链等复杂概念。
三、X-Master与X-Masters:系统设计核心
该团队的研究属于SciMaster系列第一部分,目标是开发通用科学AI智能体。
1. X-Master:工具增强型推理智能体
X-Master由开源模型(如DeepSeek-R1)驱动,核心设计是模拟人类研究者动态问题解决过程,在内部推理和外部工具使用间流畅切换,形成共生循环:工具输出为推理提供关键反馈,完善推理;更清晰的推理引导智能体更高效使用工具。
实现这一过程的核心是将代码作为交互语言。当X-Master遇内部推理无法解决的问题时,会将精确行动计划编写为代码块,代码执行后与NumPy、SciPy等数值计算工具,或团队设计的实时网络搜索、数据提取工具包对接,执行结果被无缝吸收回智能体上下文,丰富知识储备,为后续推理提供依据。
在智能体思考过程中,token“”和“”之间可生成代码与环境交互。代码会被提取到沙盒环境执行,访问各类Python库和工具,执行结果由“
由于强推理模型(如DeepSeek-R1)本质非智能体,且遵循指令能力有限,仅靠传统提示工程难以引导其展现预期智能体行为。团队引入初始推理引导机制:不在模型收到用户查询后立即让其自由思考,而是在初始“和token之间的Python代码”。通过这种方式,可引导模型“相信”自身具备增强能力,无需针对智能体行为微调,就能自主生成和执行代码,与环境交互,发挥强大智能体功能。
2. X-Masters:分散-堆叠式智能体工作流
为充分发挥X-Master潜力,团队设计X-Masters,通过编排多智能体认知过程,增强推理的广度和深度。
流程中,X-Master不同实例承担多种专门角色:
• “分散”阶段:拓宽思路,多个求解器(Solver)智能体并行生成多样化解决方案,批评者(Critic)智能体修正方案可能存在的缺陷。
• “堆叠”阶段:深化思考,重写器(Rewriter)智能体综合所有先前输出形成更优解决方案,最后由选择器(Selector)智能体裁定最佳答案。
这种分散-堆叠架构是结构化探索和利用策略,与强化学习(RL)中的“Rollouts”概念相似:“分散”类似Rollouts的探索原理,模拟多条未来轨迹评估不同行动潜力;“堆叠”类似Rollouts后的聚合和“利用”步骤。
四、实验结果:性能与突破
1. 测试设置
团队使用DeepSeek-R1-0528作为驱动智能体的推理模型,最大完成token数设为64k,temperature为0.6。测试重点为HLE的纯文本子集,含2518个样本。评估运行工作流三次,报告平均分数,按官方设置使用o3-mini作为评判模型,基线模型结果来自现有排行榜。
2. 核心成果
X-Masters取得32.1%的最高分,超过所有现有智能体和模型,成为首个在HLE上得分超过30%的系统。
3. 分阶段提升
| Method | R1 | Solver | Critic | Rewriter | Selector | Accuracy (%) |
|---|---|---|---|---|---|---|
| Reasoning Model without Tool | X | X | X | X | X | 17.7 |
| 21.1 | ||||||
| X-Master (Ours) | X | 25.0 | ||||
| 30.6 | ||||||
| 32.1 |
工具增强推理(求解器)使基线准确率提高3.4%,迭代优化(批评者和重写器)增加9.5%,最终选择(选择器)实现32.1%的纪录成绩。
4. 跨类别与专项表现
• 跨类别性能:与DeepSeek-R1-0528相比,X-Masters在所有HLE类别中均有显著改善。
• 生物学/医学类别:X-Masters在222道纯文字题中正确率达27.6%,优于Biomni(17.3%,50样本)和STELLA(26%,52样本)。
• TRQA-lit(choice)测试:172道生物学复杂多选题中,独立X-Master准确率62.1%,X-Masters借助智能体工作流取得67.4%的SOTA成绩,超过整合500多种专家工具的多智能体系统OriGene。
这项突破显示,即便基础模型在某些功能(如R1的函数调用)上表现欠佳,通过合适框架设计,仍能在高难度测试中取得优异成绩。团队已将X-Masters方案开源,代码仓库地址为 https://github.com/sjtu-sai-agents/X-Master ,论文链接为 https://arxiv.org/abs/2507.05241 。
共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du均来自上海交通大学人工智能研究院,由上海交大陈思衡副教授指导,深势科技创始人兼首席科学家张林峰参与研究。
