观点网讯:1月14日,MiniMax宣布开源面向Coding Agent的评测集OctoCodingBench,并同步披露基于该集对国内外十余款开源及闭源大模型的测评结果。根据公开资料整理,实验覆盖代码生成、多轮对话、指令遵循等维度,样本规模超1万条。
测评发现,所有受测模型在细粒度Check-level指标上准确率均突破80%,但端到端Instance-level成功率仅10%-30%,暴露出长链路任务稳定性不足;随着对话轮次增加,模型指令遵循率呈阶梯式下降,第五轮后平均衰减约25%。MiniMax指出,目前尚无模型达到生产级可靠性,过程合规与安全性仍属盲区,呼吁行业共建更严苛的代码智能评测标准。
免责声明:本文内容与数据由观点根据公开信息整理,不构成投资建议,使用前请核实。