字节 Seed 开源统一多模态理解和生成模型 BAGEL
创始人
2025-06-03 19:40:33

IT之家 6 月 3 日消息,字节跳动 Seed 团队上周宣布开源统一多模态理解和生成模型 BAGEL,该模型支持文本、图像和视频的统一理解和生成。

BAGEL 具有 70 亿个激活参数(总共 140 亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源 VLMs,如 Qwen2.5-VL 和 InternVL-2.5,并且提供了与专业生成器如 SD3 竞争的文本到图像质量。

此外,BAGEL 在经典的图像编辑场景中展示了比领先的开源模型更好的定性结果。更重要的是,它扩展到了自由形式的视觉操作、多视图合成和世界导航,这些能力构成了超出以往图像编辑模型范围的“世界建模”任务。

具体来看,BAGEL 基于大语言模型进行训练,具备基础的推理和对话能力,能够处理图像和文本的混合输入,并以混合格式输出。

▲ 混合输入-混合输出

BAGEL 可生成较高质量、逼真的图像、视频或图文交错的内容。此外,还引入了长思维链 COT(Chain-of-Thought)模式,模型在生成之前可先“思考”。

▲ BAGEL 通过“思考”生成了一个穿着毛衣的鳄鱼玩偶

基于交错的多模态数据预训练,BAGEL 自然地学会了保留视觉特征和细微细节,并且能从视频中捕捉复杂的视觉运动,这些能力使得 BAGEL 在图像编辑上更为高效。

▲ 基于同一人物形象进行图像编辑

基于对视觉内容和风格的理解,BAGEL 仅使用较少的对齐数据,即可实现图片的风格切换,甚至还可转换至不同场景中。

▲ BAGEL 实现多种风格迁移

此外,BAGEL 还具备世界模型的基础能力,可实现世界导航、未来帧预测、3D 世界生成等更具挑战性的任务,并进行不同角度的旋转或视角切换。同时,BAGEL 还具备较强的泛化能力,不仅在各类真实场景中,还能在游戏、艺术作品、卡通动画等场景中实现导航。

基于以上能力,BAGEL 还可通过一个统一的多模态接口,实现各项能力的复杂组合,进行多轮对话。

▲ 图片剪切-智能编辑-场景转换-风格转换组合功能

IT之家附 BAGEL 开源地址:

官网及体验入口:

GitHub 代码:

模型权重:

研究论文:

相关内容

热门资讯

可灵AI离营收单月破亿,还有多... 本文来自微信公众号:壹娱观察(ID: yiyuguancha),文/大娱乐家。 虽然嘴上没明说,但快...
“高考作文”热搜爆了!16款A... 智东西 作者 | 江宇 编辑 | 漠影 智东西6月7日报道,2025年高考今日正式拉开帷幕,在高考...
透视脚本!wePoKe(Wep... 透视脚本!wePoKe(Wepoke外挂)外挂透明挂辅助软件(透视)详细教程(2025已更新)(哔哩...
透视有挂!德扑之星真的太假了(... 这是一款非常优秀的wepOkE ia辅助检测软件,能够让你了解到wepOkE中牌率当中全部隐藏参数,...
终于清楚!德扑手机上(微扑克微... 终于清楚!德扑手机上(微扑克微乐)外挂透明挂辅助app(辅助挂)详细教程(2022已更新)(哔哩哔哩...