MiniMax宣布开源面向Coding Agent的新评测集
创始人
2026-01-15 07:24:45

观点网讯:1月14日,MiniMax宣布开源面向Coding Agent的评测集OctoCodingBench,并同步披露基于该集对国内外十余款开源及闭源大模型的测评结果。根据公开资料整理,实验覆盖代码生成、多轮对话、指令遵循等维度,样本规模超1万条。

测评发现,所有受测模型在细粒度Check-level指标上准确率均突破80%,但端到端Instance-level成功率仅10%-30%,暴露出长链路任务稳定性不足;随着对话轮次增加,模型指令遵循率呈阶梯式下降,第五轮后平均衰减约25%。MiniMax指出,目前尚无模型达到生产级可靠性,过程合规与安全性仍属盲区,呼吁行业共建更严苛的代码智能评测标准。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

相关内容

热门资讯

沉浸式体验营地日常,解锁荣耀特... 想知道荣耀特训军事夏令营的日常是什么样的吗?是充满活力的晨跑、紧张刺激的训练,还是温馨有爱的集体生活...
山西长治襄垣灌肠独特!荞麦面做... 山西长治襄垣灌肠是极具地域特色的传统美食,其以荞麦面为核心原料,采用蒸制工艺制成,搭配特色卤汁食用,...
石家庄市动物园引入定制主题巡游... 石家庄市动物园创新文旅融合模式:定制主题巡游演艺激活暑期亲子游市场 2025年暑期,石家庄市动物园...
挪威签证办理要多久?省心办理指... 计划前往挪威领略峡湾风光或开展商务活动的朋友,最关心的莫过于签证办理时长。作为申根协议国,挪威签证办...