上海交大增强推理智能体X-Master在“人类最后的考试”首次突破30分

一、“人类最后的考试”迎来新里程碑

“人类最后的考试”（HLE，Humanity’s Last Exam）被称作史上最难大模型测试集。今年年初刚推出时，包括o1在内，没有模型得分能超过10分。直到近期，最高分也仅为26.9分，由Kimi-Research和Gemini Deep Research并列保持。

7月，上海交大联合深势科技团队发布新研究，在HLE上一举拿下32.1分，创下新纪录。这是该测试集首次有系统得分超过30分，且成果来自国内团队。团队同时推出工具增强推理智能体X-Master、多智能体工作流系统X-Masters，并将方案开源。

二、HLE：究竟是怎样的“考试”？

HLE由AI安全中心和Scale AI发起，题目来自500多家机构的1000多名学者，涵盖高校、研究所、企业、医疗机构及独立研究者，OpenAI、Anthropic、谷歌DeepMind、微软研究院等均在其中。

题目需经大模型和人工双重审查，需达到研究生难度，且不能被检索到，还得有明确答案和评判方式，开放式问题不会入选。最终入围题目3000多道，涵盖数理化、生物医药、工程、社会科学等多个学科，细分学科超100个。按大类分，数学占比42%，物理和生物医药各占11%。

部分题目考察视觉能力，比如解读罗马铭文中的帕尔米拉文；有些需结合视觉与文本，如有机化学中通过结构图分析反应；数学、计算机科学题目对推理要求极高，例如涉及函子、自然变换、马尔可夫链等复杂概念。

三、X-Master与X-Masters：系统设计核心

该团队的研究属于SciMaster系列第一部分，目标是开发通用科学AI智能体。

1. X-Master：工具增强型推理智能体

X-Master由开源模型（如DeepSeek-R1）驱动，核心设计是模拟人类研究者动态问题解决过程，在内部推理和外部工具使用间流畅切换，形成共生循环：工具输出为推理提供关键反馈，完善推理；更清晰的推理引导智能体更高效使用工具。

实现这一过程的核心是将代码作为交互语言。当X-Master遇内部推理无法解决的问题时，会将精确行动计划编写为代码块，代码执行后与NumPy、SciPy等数值计算工具，或团队设计的实时网络搜索、数据提取工具包对接，执行结果被无缝吸收回智能体上下文，丰富知识储备，为后续推理提供依据。

在智能体思考过程中，token“”和“”之间可生成非代码文本用于推理，特殊token“”和“”之间可生成代码与环境交互。代码会被提取到沙盒环境执行，访问各类Python库和工具，执行结果由“”和“”包裹，附加到模型上下文，供推理模型继续解读和推理，直至下一次交互或思考结束。

由于强推理模型（如DeepSeek-R1）本质非智能体，且遵循指令能力有限，仅靠传统提示工程难以引导其展现预期智能体行为。团队引入初始推理引导机制：不在模型收到用户查询后立即让其自由思考，而是在初始“”token后直接嵌入引导文本。这些文本从推理智能体自身角度设计，采用第一人称表述，例如“我可以通过访问外部环境有效回答这个查询”“每当我确定需要与外部工具交互时，我会生成包裹在和token之间的Python代码”。通过这种方式，可引导模型“相信”自身具备增强能力，无需针对智能体行为微调，就能自主生成和执行代码，与环境交互，发挥强大智能体功能。

2. X-Masters：分散-堆叠式智能体工作流

为充分发挥X-Master潜力，团队设计X-Masters，通过编排多智能体认知过程，增强推理的广度和深度。

流程中，X-Master不同实例承担多种专门角色：

• “分散”阶段：拓宽思路，多个求解器（Solver）智能体并行生成多样化解决方案，批评者（Critic）智能体修正方案可能存在的缺陷。

• “堆叠”阶段：深化思考，重写器（Rewriter）智能体综合所有先前输出形成更优解决方案，最后由选择器（Selector）智能体裁定最佳答案。

这种分散-堆叠架构是结构化探索和利用策略，与强化学习（RL）中的“Rollouts”概念相似：“分散”类似Rollouts的探索原理，模拟多条未来轨迹评估不同行动潜力；“堆叠”类似Rollouts后的聚合和“利用”步骤。

四、实验结果：性能与突破

1. 测试设置

团队使用DeepSeek-R1-0528作为驱动智能体的推理模型，最大完成token数设为64k，temperature为0.6。测试重点为HLE的纯文本子集，含2518个样本。评估运行工作流三次，报告平均分数，按官方设置使用o3-mini作为评判模型，基线模型结果来自现有排行榜。

2. 核心成果

X-Masters取得32.1%的最高分，超过所有现有智能体和模型，成为首个在HLE上得分超过30%的系统。

3. 分阶段提升

Method	R1	Solver	Critic	Rewriter	Selector	Accuracy (%)
Reasoning Model without Tool	X	X	X	X	X	17.7
						21.1
X-Master (Ours)					X	25.0
						30.6
						32.1

工具增强推理（求解器）使基线准确率提高3.4%，迭代优化（批评者和重写器）增加9.5%，最终选择（选择器）实现32.1%的纪录成绩。

4. 跨类别与专项表现

• 跨类别性能：与DeepSeek-R1-0528相比，X-Masters在所有HLE类别中均有显著改善。

• 生物学/医学类别：X-Masters在222道纯文字题中正确率达27.6%，优于Biomni（17.3%，50样本）和STELLA（26%，52样本）。

• TRQA-lit（choice）测试：172道生物学复杂多选题中，独立X-Master准确率62.1%，X-Masters借助智能体工作流取得67.4%的SOTA成绩，超过整合500多种专家工具的多智能体系统OriGene。

这项突破显示，即便基础模型在某些功能（如R1的函数调用）上表现欠佳，通过合适框架设计，仍能在高难度测试中取得优异成绩。团队已将X-Masters方案开源，代码仓库地址为 https://github.com/sjtu-sai-agents/X-Master ，论文链接为 https://arxiv.org/abs/2507.05241 。

共同一作Jingyi Chai、Shuo Tang、Rui Ye、Yuwen Du均来自上海交通大学人工智能研究院，由上海交大陈思衡副教授指导，深势科技创始人兼首席科学家张林峰参与研究。

AI DeepSeek