Agent微调复活?英伟达开源8B新模型带飞GPT-5:在HLE狂卷37分,还把成本打下来
创始人
2025-12-07 13:15:09

Orchestrator团队 投稿

量子位 | 公众号 QbitAI

当问题又深又复杂时,一味上最强模型既贵又慢。测试时扩展能想得更久,却不一定想得更对。

最近,来自英伟达和香港大学的研究员提出一种新范式:用一个8B小模型当指挥家,把代码解释器、网络搜索、数学模型、甚至更强的大模型当作乐手,按需编排、分工合作,用强化学习把“正确、便宜、合你心意”三件事同时做到。

在人类最后一场考试(Humanity’s Last Exam)上,指挥家 Orchestrator-8B以 37.1% 的成绩超过GPT-5(35.1%),还更省2.5×计算成本;在τ²-Bench与FRAMES上同样全面领先,成本却只有对手的大约三成。

为什么需要Agent微调?

只靠提示词也可以搭建一个多智能体系统,但是论文发现,依赖提示词的系统,存在着两大偏见:

  • 自增强偏见:模型倾向“找自己家族的人帮忙”;例如GPT-5倾向于调用GPT-5-mini,造成性能下降。

  • 他增强偏见:无脑调用“最强模型”,成本爆表。例如Qwen3-8B大量把活交给GPT-5,不管代价如何。

这两种偏见的存在都会让一个大模型“自我调度”往往失灵:因此,论文提出使用强化学习训练指挥家agent,通过多重奖励来提升效果和效率。

ToolOrchestra:统一接口 + 多轮编排 + 强化学习三重奖励

ToolOrchestra的核心是把各种工具(网页/本地检索、代码执行、数学与通用 LLM 等)统一成一个JSON接口,让8B指挥家能在多轮回合里先思考、再调用、再读回馈,直到收敛。训练上,使用GRPO强化学习,ToolOrchestra让模型同时最大化三种奖励:

1 正确性(任务是否解决);

2 效率(货币/时延罚项);

3 用户偏好(你更爱本地检索还是云搜索,更看重速度还是成本)。

为了配合强化学习训练,论文还打造了一个合成数据集ToolScale:先由 LLM生成领域数据库与API,再自动合成“任务—黄金动作序列”,并通过执行正确性、过程完整性等可验证标准筛选。覆盖金融、医疗、出行、教育等10个领域,为端到端RL提供真实而丰富的环境。

实验亮点:更强、更省,还更稳

主赛道:

  • HLE(人类最后一场考试):Orchestrator-8B 37.1% > GPT-5(35.1%)。

  • FRAMES(事实推理):Orchestrator-8B 76.3 > GPT-5(74.0)。

  • τ²-Bench(复杂工具调用):80.2 > GPT-5(77.7)。

    同时平均成本仅9.2美分,时延8.2分钟,显著低于GPT-5。

成本—效果曲线

在同等预算下,Orchestrator-8B的准确率曲线始终在GPT-5、Claude 等曲线之上;相当准确率下花得更少。

  • 不“迷信最强”而是“各尽其用”。指挥家不会一味狂点GPT-5,而是平衡调用:本地/网页检索、代码执行、专长模型(如数学/编程)与通用LLM各司其职,用最省的刀切最对的菜。

  • 泛化到“新乐手”也不慌。即便换成训练时没见过的工具/模型组合,指挥家依旧能从模型描述推断其强弱与擅长领域,维持最优性价比。

  • 听你的:偏好对齐,对“更私的本地检索/更快/更省”等偏好,指挥家比强基座更能遵命行事,把“合你心意”从口号变成指标。

新范式:Orchestration agent微调+多agent多工具调用

这篇论文给解决复杂的任务提供了一个新的范式,从“一个大模型包打天下”,到“小模型+工具+专家模型的复合系统”。从实用角度来看,把昂贵的最好的大模型留给真正难点,其余交给便宜、高效的工具链,稳定、可控、可落地。对于企业客户来说,这套系统在多个场景里都可以直接应用:

  • 场景 1:企业内部问答/报表分析——默认用本地索引+代码沙盒完成 80% 工作,只在遇到歧义/复杂推理时短暂“借力”强模型。

  • 场景 2:研发检索/调研——设定“时间上限/成本上限”与“来源偏好”(本地/公开),让指挥家边走边权衡。

  • 场景 3:Agent工作流——把函数/工具都纳入统一接口,交给指挥家端到端编排,而不是靠写死的if-else。

Orchestrator-8B不是“更大的大模型”,而是更像一位懂乐谱、听细节、会省钱的“工具乐队指挥家”。当智能从单体走向复合系统,我们更需要这样的“协调者”,在正确率、成本、时延与偏好之间,给出最优解。

目前,论文已经开放全部代码、模型与数据,方便学界与产业跟进。

论文: https://arxiv.org/abs/2511.21689

代码: https://github.com/NVlabs/ToolOrchestra/

模型: https://huggingface.co/nvidia/Orchestrator-8B

数据: https://huggingface.co/datasets/nvidia/ToolScale

相关内容

热门资讯

[玩家实测科技]“乐享牛牛有挂... 您好:乐享牛牛这款游戏可以开挂,确实是有挂的,需要了解加客服微信【9752949】很多玩家在这款游戏...
揭秘分享攻略!斑马绘本有挂是真... 您好:斑马绘本这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,...
揭秘分享攻略!龙焱互娱有挂是真... 揭秘分享攻略!龙焱互娱有挂是真的吗?详细(辅助神器)的确有猫腻(2024已更新)(哔哩哔哩),亲,有...
[今日要闻]“麦穗app推筒子... [今日要闻]“麦穗app推筒子辅助器?”[原来真的有挂]亲.麦穗app推筒子这款游戏是可以开挂的,确...
揭秘分享攻略!亲友茶苑有挂是真... 您好,亲友茶苑这款游戏可以开挂的,确实是有挂的,通过微信【8198015 】很多玩家在这款游戏中打牌...