MiniMax宣布开源面向Coding Agent的新评测集
创始人
2026-01-15 07:24:45

观点网讯:1月14日,MiniMax宣布开源面向Coding Agent的评测集OctoCodingBench,并同步披露基于该集对国内外十余款开源及闭源大模型的测评结果。根据公开资料整理,实验覆盖代码生成、多轮对话、指令遵循等维度,样本规模超1万条。

测评发现,所有受测模型在细粒度Check-level指标上准确率均突破80%,但端到端Instance-level成功率仅10%-30%,暴露出长链路任务稳定性不足;随着对话轮次增加,模型指令遵循率呈阶梯式下降,第五轮后平均衰减约25%。MiniMax指出,目前尚无模型达到生产级可靠性,过程合规与安全性仍属盲区,呼吁行业共建更严苛的代码智能评测标准。

免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。

相关内容

热门资讯

盘点2026年好用的童趣风格温... 当亲子度假成为家庭出游的核心刚需,不少父母都陷入了相似的困境:想趁假期泡温泉放松身心,却要全程盯顾精...
伊犁亲子游超全攻略!7天6晚带... 每年6-8月,伊犁就变成了童话世界。无边无际的草原上开满野花,雪山融水汇成清澈的溪流,成群的牛羊在蓝...
丹东:樱韵花开,亲子寻芳 春和景明,连日来丹东迎来最美樱花季。 4月17日,丹东市第三幼儿园“樱韵花开·寻迹花神”第十一届樱花...
守护成长 童心同行—— 翠云轩... “守护成长 童心同行” 就在 4 月 18 日下午,翠云轩小区迎来了第二场别开生面的儿童性教育主题...
2026年新疆奢华亲子游推荐,... 在2026年,选择新疆作为奢华亲子游的家庭越来越多。这里有丰富的自然风光与独特的文化活动,吸引着各个...