智能体技术正在快速发展,其自主性也在不断增强。从网络导航到递归改进自身编程技能,智能体AI有望重新整合在线经济并重新定义互联网。
然而,对于企业环境而言,AI智能体带来了巨大的风险。从辅助转向自动化可能是一个危险的举措,特别是当这些实体被赋予执行关键操作的完全权限时——从完成简单的金融交易到协调复杂的供应链。
为了降低这种风险,卡内基梅隆大学和富士通的研究人员开发了三个基准测试,用于衡量AI智能体何时足够安全或有效,能够在没有人工监督的情况下运行业务操作。这些基准测试在1月26日举行的2026年新加坡人工智能AAAI会议的研讨会上发布。
FieldWorkArena基准测试
第一个基准测试名为FieldWorkArena,用于评估部署在现场的AI智能体,特别是物流和制造环境,如工厂和仓库。FieldWorkArena计算智能体在检测安全规则违规和工作程序偏差,以及生成事故报告方面的准确率。例如,一个检查高风险区域个人防护设备(PPE)合规性的AI智能体需要理解PPE标准,识别区域内的工人,分析他们所穿戴的设备是否符合标准,并报告合规人员数量。
该基准测试不使用模拟,而是采用真实世界的数据源,包括工作手册、安全法规以及现场拍摄的图像和视频。日本庆应义塾大学教授、研讨会组织者之一的Hideo Saito强调了在为智能体AI基准测试收集输入数据集时数据隐私的重要性,"特别是当你想将此类数据集用于商业、非学术用途时"。例如,FieldWorkArena的数据是在视频录像中出现的人员同意下获得的,同时对面部和敏感工作区域进行了模糊处理以防止身份识别。
研究人员评估了三个能够处理图像和文本数据的多模态大语言模型:Anthropic的Claude Sonnet 3.7、Google的Gemini 2.0 Flash和OpenAI的GPT-4o。结果令人担忧,三个模型都获得了较低的准确率分数。尽管它们在信息提取和图像识别方面表现出色,但这些大语言模型有时会出现幻觉,并且在精确计数对象和测量特定距离方面存在困难。
这些发现表明,企业需要基于企业环境和现实任务的智能体AI基准测试。这就是富士通主导FieldWorkArena开发的原因,该公司注意到客户对评估为现场工作优化的AI智能体效率的需求不断增长,富士通研究院AI实验室高级项目总监Hiro Kobashi说:"客户对大语言模型感到不确定和担忧,所以我们想为他们提供良好、充分的基准测试。"
ECHO和企业RAG基准测试
虽然FieldWorkArena可以通过其GitHub存储库访问,但Kobashi指出,在研讨会上展示的其他两个基准测试——ECHO(基于证据的幻觉观察)和企业检索增强生成(RAG)基准测试,将在一个月内向公众开放。ECHO评估视觉语言模型(VLMs)幻觉缓解策略的有效性,这些模型被设计用于回答关于图像的问题或从视觉输入生成文本。结果表明,裁剪图像使模型将注意力集中在相关区域,以及应用强化学习进行推理等技术,可以最大限度地减少VLMs中的幻觉。
同时,企业RAG基准测试评估AI智能体从权威知识库中检索数据并使用该数据来增强其生成回应的能力。测量的指标包括检索与查询相关的正确区域以及从检索到的信息中正确推理。
未来发展方向
未来,Kobashi和他的团队计划扩展他们创建的基准测试的功能,以适应其他行业和用例。"客户需求非常多样化。我们不能仅通过使用一个基准测试来涵盖所有需求,所以我们需要拥有多种基准测试,"他说。
持续更新基准测试是团队计划采取的另一个关键步骤。随着AI智能体的发展,它们的基准测试分数也可能上升,达到进步微小的程度。这将表明需要更新、更全面的基准测试来指导更好的企业AI智能体的开发。
Q&A
Q1:FieldWorkArena基准测试是用来做什么的?
A:FieldWorkArena是用于评估部署在现场的AI智能体的基准测试,特别针对物流和制造环境如工厂和仓库。它计算智能体在检测安全规则违规、工作程序偏差以及生成事故报告方面的准确率,比如检查高风险区域个人防护设备的合规性。
Q2:目前的大语言模型在FieldWorkArena测试中表现如何?
A:测试结果令人担忧,包括Claude Sonnet 3.7、Gemini 2.0 Flash和GPT-4o在内的三个多模态大语言模型都获得了较低的准确率分数。尽管它们在信息提取和图像识别方面表现出色,但经常出现幻觉,并且在精确计数对象和测量特定距离方面存在困难。
Q3:ECHO基准测试主要解决什么问题?
A:ECHO(基于证据的幻觉观察)主要评估视觉语言模型幻觉缓解策略的有效性。研究结果表明,通过裁剪图像使模型将注意力集中在相关区域,以及应用强化学习进行推理等技术,可以最大限度地减少视觉语言模型中的幻觉现象。