萝莉∮精灵 2025-5-24 18:52
字节把GPT-4o级图像生成能力开源了![19P]
字节最近真的猛猛开源啊……
这一次,他们直接开源了GPT-4o级别的图像生成能力。
(轻松拿捏“万物皆可吉卜力”玩法~)
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/0eeda23fj00swr95c000zd000hs00bwm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
不止于此,其最新融合的多模态模型BAGEL[/b]主打一个“大一统”, 将带图推理、图像编辑、3D生成等功能全都集中到了一个模型。
虽然活跃参数只有7B(总计14B),但它已经实现了图像理解、生成、编辑等多冠王,实力超越或媲美一众顶尖开源(如Stable Diffusion 3、FLUX.1)和闭源(如GPT-4o、Gemini 2.0)模型。
模型一经发布,不仅迅速登上Hugging Face趋势榜,还立即在引发热议。
有网友见此连连感慨,“字节像领先了整整一代人”。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/e6ea31aej00swr95c000bd000hs003wm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
OpenAI研究员也公开赞赏, 字节Seed团队在他心目中已经稳居顶级实验室之列。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/693cca7bj00swr95c0014d000hs00d5m.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
Okk,我们直接来看BAGEL模型有哪些玩法。
一个模型实现所有多模态功能
作为多模态模型,掌握带图推理[/b]算是如今的一个入门级挑战。
扔给它叠放整齐的一块布料,让它想象出布料展开后的样子。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/b7896ae4j00swr95c000od000hs00awm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
可以看到,生成之前BAGEL模型会自动进行推理[/b],并规划出可行方案:
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/07196ce1j00swr95d002wd000hs00hmm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
最终生成的图片如下,一眼看去布料的拼图和花纹没有明显错误:
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/bf18eab8j00swr95c001gd000hs00cpm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
换成其他例子,还能看到BAGEL模型支持无缝多轮对话[/b]。
先是按照文字提示生成符合要求的图片:
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/4ca1a61cj00swr95c0015d000hs00gym.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
然后紧接着生成人物的公仔形象,并推出销售口号。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/d8fd2dbcj00swr95c000rd000hs00gjm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
当然,除了上面这些,懂推理的BAGEL模型还支持复杂图像编辑[/b]。
最方便的,当属一键试妆了:
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/b88eb2d7j00swr95c0012d000hs00ism.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
展开其思考过程,不难发现它是真懂(doge)。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/165c11cfj00swr95c0015d000hs007dm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
其他我们相对熟悉的技能,如人物表情转换、凭空造物等更是不在话下。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/1ca777bcj00swr95c000fd000hs007ym.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
最后,BAGEL模型超越传统图像编辑,还具备多视角合成和导航等“世界建模”能力[/b]。
360°全自动观赏装在盒子里的手办:
[img]http://dingyue.ws.126.net/2025/0524/53229611g00swr95d01bhd000hs00oam.gif[/img]
又或者开局一张图,视角一步步推进,沉浸式走进小巷:
[img]http://dingyue.ws.126.net/2025/0524/62eb7691g00swr95f05s6d000q400dtm.gif[/img]
总之,正如字节团队所强调的,BAGEL模型已经展现出统一多模态能力。
那么接下来的问题是——
它怎么做到的?
重新定义“涌现能力”
据论文介绍,BAGEL模型采用了MoT(Mixture-of-Transformer-Experts)架构。
它由两个Transformer专家组成,一个专注于多模态理解,另一个专注于多模态生成。作为对应,模型也使用了两个独立的视觉编码器,分别用于捕捉图像的像素级和语义级特征。
简单来说,像素级编码器专注于图像的底层细节,如颜色、纹理等;语义级编码器则关注图像的高层语义,如物体的类别、场景的含义等。
整体框架遵循“下一个token组预测范式”[/b],即模型根据已有的多模态输入,学习预测后续的token,从而不断优化自身对多模态数据的理解和生成能力。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/20468f98j00swr95c000jd000hs0070m.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
顺便一提,BAGEL基础模型是基于Qwen2.5-7B-Instruct[/b]和siglip-so400m-14-384-flash-attn2[/b]模型进行微调,并使用了FLUX.1-schnell VAE[/b]模型。
基于上述架构,团队在模型训练中得出了一项重要发现。
随着规模化数据与模型参数的双重扩展,BAGEL模型表现出了一种“涌现能力(Emerging Properties)”——多模态理解和生成能力较早出现,随后是基础编辑能力,而复杂的智能编辑能力则在后期显现。[/b]
所谓的涌现能力,其实早已在大型视觉或语言模型中被广泛探讨。不过在论文中,聚焦于统一多模态基础模型的背景下,团队重新定义了涌现能力:
当某种能力在早期训练阶段尚未出现,而在后续预训练中出现时,称其为涌现能力。
结合BAGEL模型的表现,团队认为其揭示了一种新兴模式,即高级多模态推理是在完善的基础技能之上逐步形成的,而非某种“突变”。
另外论文中提醒,将VAE(变分自编码器)与ViT(视觉Transformer)特征相结合,可以显著提升智能编辑能力。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/2b6f7a35j00swr95c000nd000hs00aqm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
最后,更多基准测试结果也展现了BAGEL模型领先的图像理解、生成、编辑能力[/b]。
例如在图像理解任务中,在激活参数规模相当(7B)的情况下,BAGEL模型优于现有的统一模型Janus-Pro。
同时与专用理解模型(如Qwen2.5-VL和InternVL2.5)相比,BAGEL在大多数基准测试上表现更优。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/c7439fe6j00swr95c0016d000hs00bwm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
在GenEval和WISE这两个评估图像生成能力的测试中,BAGEL实现了88%[/b]的整体得分,优于专用生成模型(FLUX.1-dev:82%、SD3-Medium:74%)和统一模型(Janus-Pro:80%、MetaQuery-XL:80%)。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/bb95bd1cj00swr95c000xd000hs009wm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
在图片编辑能力测试中,BAGEL的表现可与Step1X-Edit(当前领先的专用图像编辑模型)相媲美,并且优于Gemini 2.0。
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/c0b2c20dj00swr95c000kd000hs005vm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
当然,也有更直观的对比:
[img]https://nimg.ws.126.net/?url=http://dingyue.ws.126.net/2025/0524/bf603c48j00swr95c002td000hs00llm.jpg&thumbnail=660x2147483647&quality=80&type=jpg[/img]
目前模型已在Hugging Face上架,采用相对宽松的Apache 2.0许可证。