IBM推出Mellea开源库助力轻量级AI模型提升效率
创始人
2026-01-22 22:48:15

大语言模型仍然主导着AI排行榜,但新兴的轻量级模型正在缩小差距。例如,IBM最新的Granite 4.0模型系列能够以极低的成本超越更早期且规模更大的前沿模型。

这就是IBM和其他科技公司在许多企业任务中采用小语言模型(SLM)的原因。运行这些模型需要更少的计算能力、内存和电力,正如斯坦福大学团队最近发现的那样,它们能够在笔记本电脑或手机上胜任大多数AI任务。为了标记这一里程碑,该团队提出通过所谓的"每瓦特智能比"来评估大语言模型的规模。

IBM Granite模型在这一指标上已经表现突出。但如果通过以更适合SLM的方式构建应用程序,能够进一步增强其智能水平呢?IBM最近发布了Mellea,这是一个新的开源库,旨在通过在推理时施加要求等方式,使与语言模型的交互像与其他软件一样可预测。

Mellea仍处于早期阶段,是IBM称为生成式计算的更大研究议程的一部分。目前,智能体的构建方式混乱且临时,需要冗长复杂的提示,只有大型前沿模型才能处理。生成式计算设想了一种更结构化、更简化的设计,这将使Granite和其他精简的开源大语言模型能够表现得与重量级模型一样好甚至更好。

IBM的一对研究科学家Nathan Fulton和Hendrik Strobelt在近一年前开始构建Mellea。两人从小就开始编程。在东德长大的Strobelt在父亲的Robotron计算机上学会了BASIC语言。在圣路易斯郊区,Fulton在家里被长期放置在壁橱里的旧Apple II计算机上自学了Applesoft BASIC。

他们都在相差15年的时间里在研究生院学习了计算机科学。Strobelt专注于搜索和可视化大型文档集合的方法,而Fulton专门研究用于验证自动化机器(从汽车到飞机)按人类意图行为的数学逻辑。当对大语言模型的兴趣不断升温时,他们都在马萨诸塞州剑桥的IBM研究院工作。

我们最近与他们交流,讨论了Mellea以及他们让小型开源语言模型更可靠和用户友好的探索。

解决的核心问题

Fulton表示,他们希望用小模型做大模型的事情。他们认为最好的方法是摆脱冗长的提示和获得想要响应的神奇咒语。可以通过将问题分解为可验证和迭代解决的小块来实现这一点。将任务分解为一系列子任务通常会带来更好的结果,小模型可以非常高效地做到这一点。

Strobelt补充说,大语言模型需要失败模式。任何与大语言模型合作过的开发者都会立即理解为什么摆脱提示并提供代码会很有用。小到中型大语言模型有很多价值,Mellea可以释放这些价值。

失败模式的重要性

Fulton强调失败模式的重要性。构建一个在90%示例上有效的演示很容易,但当你不知道系统在哪里会失败时,10%的失败率是不可接受的。如果你试图自动化一个失败很重要的任务,而没有办法检测失败模式,那它就不会工作。想象一下,如果你写的每十封邮件中有一封不发送或发送给所有人,它就不会是一个有用的商业工具。

Mellea中的失败模式实现

Strobelt解释了通过称为"指令-验证-修复"的模式来实现。向模型发送指令;根据一组要求验证返回的内容。不仅仅是与模型聊天,还可以要求它写一封邀请同事参加办公室聚会的邮件,并附带两个条件:邮件应该引人入胜,且不超过100个单词。如果两个条件都不满足,模型会回去尝试修复其初始工作。通过添加规范,也定义了失败。

Fulton举例说,如果你在写法律简报,可以解析引用并检查案例法以查看它们是否存在。如果模型在运行时产生错误引用,可以拒绝它并继续。

模型的选择性使用

Fulton说明Mellea将问题分解为片段,仅在需要时使用语言模型。在最先进的GPU上运行大语言模型来解决相对简单的问题是没有意义的。语言模型以自然语言进行计算。无论告诉它编写程序还是解决数学问题,问题都作为文本处理;数学问题被重新表述为算术,在计算器上运行,答案以自然语言返回。

Strobelt补充说,如果可以将长提示分解为更小的片段,可以减小模型大小,因为每个指令都更小。这是经典的分而治之方法。连接组件,可以并行运行一些,但每个都可以单独优化。

IBM采用小模型的原因

Fulton指出它们更节能,使用更短的提示,消耗更少的计算资源。大语言模型需要顶级芯片,这些芯片会变得很热并推高推理能源成本。小模型不需要耗电的芯片,也不需要所有的冷却设备。

协作过程

Fulton描述了他们最初并肩编写代码,随着范围扩大,他们成为共同负责人并雇用了两名软件开发人员。现在他们每天上午10点开站立会议,并在IBM内部宣传Mellea。

Strobelt表示他希望Mellea直观且易于使用,而Nathan想要构建软件系统。理论背景和用户体验关注可以带来很好的讨论。

与其他框架的区别

Fulton说Mellea专为编写结构化程序而设计,可以将复杂任务分解为更小的可检查步骤。它提供了逐步执行约束的机制。虽然可以在其他框架上执行此操作,但Mellea有一种有主见的编程风格。他们为设计需要在现实生活中工作的强大系统的软件工程师构建它。

Strobelt补充说Mellea不会将你锁定在可能很昂贵的智能体软件模式中。如果你是企业,不需要用大炮打鸟。

长期愿景

研究人员希望在开放空间中实现协同设计的软件栈和模型。Mellea是为炒作周期的长尾而构建的。如果可以运行小模型,可以运行更多Token,因为每个Token更便宜。可以运行验证调用并仍然节省一些钱。

对AI未来的展望

Strobelt对创建能够帮助找到疾病治愈方法或发现世界运作基本原理的应用程序感到兴奋。Fulton认为AI令人兴奋,因为任何人都可以构建非常强大的东西。他表示如果现在是博士生,可能会在中国研究通用机器人技术,那里有一个生态系统。机器人技术可能会在未来几年迎来ChatGPT时刻。

Q&A

Q1:Mellea是什么?它能解决什么问题?

A:Mellea是IBM开发的开源库,旨在让与语言模型的交互像其他软件一样可预测。它通过"指令-验证-修复"模式,将复杂任务分解为可验证的小步骤,让小语言模型能够高效完成大模型的工作,同时提供失败检测机制。

Q2:小语言模型相比大语言模型有什么优势?

A:小语言模型更节能,需要更少的计算能力、内存和电力,不需要顶级芯片和复杂的冷却设备。IBM提出了"每瓦特智能比"概念来评估模型效率,小模型在成本控制方面表现突出,同时仍能胜任大多数AI任务。

Q3:生成式计算与传统智能体开发有什么不同?

A:传统智能体构建方式混乱临时,需要冗长复杂的提示,只有大型前沿模型才能处理。生成式计算采用更结构化、简化的设计,通过分而治之的方法将问题分解为小块,让轻量级开源模型也能达到甚至超越重量级模型的表现。

相关内容

热门资讯

福建蚵仔煎蛋液+生蚝完美结合 ## 蚵仔煎蛋:一枚蛋里的海洋与陆地 福建的蚵仔煎蛋,是一道看似简单却暗藏玄机的小食。金黄蛋液裹挟着...
西藏酥油茶+糌粑简易做法,高原... ## 高原上的暖阳:一碗酥油茶与糌粑的生命哲学 在海拔四千米的高原上,寒风如刀,氧气稀薄,藏民们却世...
当广东凉茶穿上潮流外衣:广州新... 春节临近,广州的文旅消费场景已率先升温! 1月21日,一场别开生面的跨界联名快闪活动在越秀区一方东山...