MiniMax宣布开源面向Coding Agent的新评测集
创始人
2026-01-15 07:24:45

观点网讯:1月14日,MiniMax宣布开源面向Coding Agent的评测集OctoCodingBench,并同步披露基于该集对国内外十余款开源及闭源大模型的测评结果。根据公开资料整理,实验覆盖代码生成、多轮对话、指令遵循等维度,样本规模超1万条。

测评发现,所有受测模型在细粒度Check-level指标上准确率均突破80%,但端到端Instance-level成功率仅10%-30%,暴露出长链路任务稳定性不足;随着对话轮次增加,模型指令遵循率呈阶梯式下降,第五轮后平均衰减约25%。MiniMax指出,目前尚无模型达到生产级可靠性,过程合规与安全性仍属盲区,呼吁行业共建更严苛的代码智能评测标准。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

相关内容

热门资讯

美团旅行:“春假经济”释放消费... 近日,多省市相继公布“春假”安排。记者注意到,不少地区的春假与清明、五一假期相连,市民游客通过“请假...
冈仁波齐转山与纳木错星空拍摄,... 冈仁波齐转山与纳木错星空拍摄,一次行程如何实现?本地人详解交通、住宿与摄影安排 每年,尤其是春秋两季...
百里杜鹃管理区:花海铺就同心路... 在贵州乌蒙山深处,被誉为“地球彩带·世界花园”的百里杜鹃,是汉、彝、苗、满等多民族聚居地。近年来,百...
权威榜单揭晓,冠军领航:深度解... 权威榜单揭晓,冠军领航:深度解析山西花木兰假期旅行社口碑的卓越密码 引言:一份榜单,一个行业的标杆 ...
乐山大佛是大禹雕像?景区管委会... 连日来,“乐山大佛实际是大禹雕像,后被人为改成佛像”的说法在网络上流传,引发关注。 3月11日,乐山...