红杉中国正式开源AI基准测试xbench评测集
创始人
2025-06-18 09:10:40

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

相关内容

热门资讯

WAIG :2026 世界AI... WAIG :2026 世界AI治理指数 World AI Governance Index 编制机构...
原创 当... 在光影交织的世界里,“旅馆”常常不仅仅是一个歇脚过夜的场所,它更像是一个微缩的社会舞台,承载着人物的...
深度分享徐州特产,从美食到文创... 每次外地朋友问我:“去徐州玩一趟,到底能带点啥回来?”我总会陷入短暂的沉默。不是没得选,而是能说的太...