MiniMax宣布开源面向Coding Agent的新评测集_学习资源

MiniMax宣布开源面向Coding Agent的新评测集

创始人

2026-01-15 07:24:45

观点网讯：1月14日，MiniMax宣布开源面向Coding Agent的评测集OctoCodingBench，并同步披露基于该集对国内外十余款开源及闭源大模型的测评结果。根据公开资料整理，实验覆盖代码生成、多轮对话、指令遵循等维度，样本规模超1万条。

测评发现，所有受测模型在细粒度Check-level指标上准确率均突破80%，但端到端Instance-level成功率仅10%-30%，暴露出长链路任务稳定性不足；随着对话轮次增加，模型指令遵循率呈阶梯式下降，第五轮后平均衰减约25%。MiniMax指出，目前尚无模型达到生产级可靠性，过程合规与安全性仍属盲区，呼吁行业共建更严苛的代码智能评测标准。

免责声明：本文内容与数据由观点根据公开信息整理，不构成投资建议，使用前请核实。

上一篇：MiniMax宣布开源面向 Coding Agent的新评测集

下一篇：英伟达H200“解禁”次日，智谱联手华为发布全国产开源模型

MiniMax宣布开源面向Coding Agent的新评测集

相关内容

热门资讯