腾讯用王者荣耀训练AI，重新定义“AI游戏智能”_学习资源

创始人

2025-10-04 22:16:18

腾讯研究团队正在用《王者荣耀》重新定义“AI游戏智能”。他们最新提出的“Think in Games”（TiG）框架，首次让AI不仅会打游戏，还能清晰地解释自己为何这么打。

在实验中，这一AI系统通过对真实比赛数据的学习，不仅能制定完整的对局策略，还能用自然语言解释“为什么推上路”“什么时候控龙”——这是过去游戏AI和语言模型都难以同时做到的。

这项研究的目标，是弥合“会玩”与“会讲”的鸿沟。传统AI代理往往能操作游戏角色，却无法说明决策逻辑；而语言模型能讲战术，却无法实时应对复杂局面。Tencent的TiG框架，正是为了让AI具备战略理解与解释能力的统一系统。

在训练中，研究团队选取了《王者荣耀》真实对局的匿名录像，包含胜负各半的数据集。AI学习了40种宏观动作（如“推上路”“控龙”“防守基地”等），通过监督学习 + 强化学习两阶段训练，不断优化判断与策略。

强化学习阶段使用“奖励积分”机制：正确动作得分，错误则为零，从而持续强化决策能力。

令人惊讶的是，小模型的表现反而更出色。

实验结果显示：腾讯使用的 Qwen3-14B 模型，在经过TiG与 Group Relative Policy Optimization (GRPO) 优化后，战略判断准确率达到 90.91%，超过了体量更大的 DeepSeek-R1（86.67%）。

与此同时，GRPO 技术显著提高了模型稳定性和泛化性能——比如，Qwen2.5-32B的准确率从66.67%跃升至86.84%。

更值得注意的是，这些AI不仅能下指令，还能“讲思路”。在测试中，它能分析敌方埋伏、识别薄弱防线，并主动推荐最优行动路径。研究团队认为，这一机制在未来有望被应用到其他需要“战略推理 + 可解释决策”的领域，如金融交易、工业调度或自动驾驶规划。

这一研究也揭示了AI发展的新方向：

真正强大的智能体，不只是“更大”，而是“更懂因果、会讲逻辑”。

腾讯的这一成果表明，在AI的下一阶段，比拼的已不再是算力堆叠，而是“策略思维”的深度融合。（AI普瑞斯编译）

策略 Think 定义王者模型训练 Qwen 决策研究荣耀普瑞斯腾讯游戏准确率