全民AI时代已经来临,AI技术进步对历史惯性的颠覆越来越快,AI已开始对各个领域进行深度改造,来改变我们的生活和认识,既然AI崛起已势不可挡,那么AI是否已经无懈可击,当然不是,一场一场特殊的“期中考”让AI的短板暴露无遗。
北京大学的研究团队精心设计了一场科学版的“图灵测试”,让174名北大学生与AI直接对决,结果AI惨败,参与测试的北大化院本科生取得了40.3%的平均准确率,而AI的成绩也仅与低年级本科生的平均水平相当。
大家要知道这次评估的可是最先进大语言模型(如GPT、Gemini、DeepSeek等),可是还暴露出许多问题,比如视觉信息处理存在瓶颈,对于依赖分子结构图、反应机理图的题目,部分模型在引入图像信息后,准确率不升反降,可见其在将视觉信息转化为化学语义方面存在不足。
高阶化学推理能力有限,AI的推理链条容易在产物结构预测、反应机理识别、构效关系分析等高阶任务上断裂,显示出逻辑推演和理解深度的欠缺。
还有就是不懂装懂,即使选对了最终答案,其详细解题步骤也难经推敲,暴露出模型缺乏真正的理解。
由此可以看出AI技术并没有完全成熟,至少在化学这个赛道还有很长一段路要走,当然,在一些领域AI已经取得了不错的成绩,比如汽车、外贸等,AI技术已经带来革新体验和变化,还值得惊喜的。
不过,AI会如此惨败是北大学子刻意为之,因为大模型太会‘背书’,为了设计一套让AI“没见过”、必须靠硬实力推理的题目,近百名师生参与进来,其中不乏奥林匹克金牌得主,给AI出一套高门槛、重推理、防作弊的试卷,其目的就是考AI是否真的“懂”化学。
这套试卷包含500道精心编撰的题目,涉及晶体结构解析、反应机理推演、物化性质计算等高阶内容。
当然,这场北大学子与AI之间对决,虽然AI输了,但是并不代表AI不行,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队,发布了最新成果SUPERChem,通过以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界,填补了化学领域多模态深度推理评测的空白,为衡量AI的真实科学推理能力提供了一块精准的“试金石”。该成果不仅仅是为了揭示AI的短板,更是为推动其进步。它表明,AI要从一个“通用聊天机器人”进化为能真正“理解物理世界”的专业科学助手,仍需跨越很大的障碍,同时也为未来人工智能与化学的交叉研究提供了一个重要的衡量标准和开放的平台。
SUPERChem项目已全面开源,旨在成为全球科学界和人工智能领域的公共财富,以促进技术的进步和“下一次技术的爆发”,感兴趣的大学生可以尝试一下,参与到AI技术创新中,或许不久未来AI面对北大精心设计的500道真的可以交出一份满分的答卷,那么AI与化学真的就可以碰撞出更多火花,带来极大惊喜。
总之,AI时代已经来临,我们要懂AI,会用AI,甚至要学会利用AI去不断创新,让AI成为我们的科学助手,而不仅仅是工具。