Boogu-Image-0.1 开源:10B 参数对标闭源 SOTA,Turbo 仅 3-4 步出图,ComfyUI 整合包抢先体验

摘要:2026 年 6 月 22 日,Boogu 团队正式开源 Boogu-Image-0.1——一个 Apache-2.0 协议下的统一图像生成与编辑模型家族,包含 Base、Turbo、Edit 三个变体,共 10B 参数。该系列在自建的 Boogu Arena ELO 偏好评测中位列所有开源与闭源系统前排,在 Qwen-Image-Bench 上更是在所评测开源模型中排名第一。Turbo 版本仅需 3-4 步即可完成高质量逼真摄影生成,Base 版本在超密集中英双语文本渲染方面表现突出,Edit 版本则支持指令式图像编辑与跨风格迁移。本文从模型架构、性能评测、本地部署、实测效果等多维度对 Boogu-Image-0.1 进行深度解析,帮助 AI 绘画爱好者和开发者快速上手这一对标闭源 SOTA 的开源力作。

一、Boogu-Image-0.1 是什么?统一理解与生成的开源新范式

Boogu-Image-0.1 是 Boogu 团队于 2026 年 6 月开源的统一图像生成与编辑模型家族,采用 Apache-2.0 协议,参数规模约 10B。与传统的单向文生图模型不同,Boogu-Image-0.1 是一个”统一理解与生成”系统——同一个网络既能读懂指令与输入图像,又能生成或编辑图片,这正是当前 AI 绘画领域的前沿方向。

Boogu-Image-0.1 开源:10B 参数对标闭源 SOTA,Turbo 仅 3-4 步出图,ComfyUI 整合包抢先体验

从架构上看,Boogu-Image-0.1 是基于 OmniGen2 的 fork,整体管线由三部分组成:Qwen3-VL 多模态大语言模型负责”理解”——将指令和输入图片编码为丰富的嵌入;双流 MMDiT 扩散变压器(基于 Lumina2 blocks)负责”生成”——在嵌入引导下对潜空间去噪;开源的 FLUX.1 VAE 负责最终的潜空间解码。官方表示,该模型用比同类开源模型少一个数量级的数据训练,却仍能达到接近闭源系统的表现。

家族包含三个核心变体,覆盖生成、编辑、加速全场景需求:

Boogu-Image-0.1-Base:基础模型,具备强大的多样性和可控性,适合微调和下游开发,主要用于超密集文本渲染,若需渲染超过 100 个字符的复杂文本内容,Base 版本更具优势。
Boogu-Image-0.1-Turbo:蒸馏变体,参数量与 Base 相同,但通常仅需 3-4 步即可完成生成,专注于高质量生成和逼真摄影效果,同时保留双语文本渲染能力。
Boogu-Image-0.1-Edit:图像编辑与变换变体,支持指令式编辑、跨风格迁移、产品级渲染等任务,理论支持局部修改、风格转换、内容替换、指令编辑等多种场景。

此外,官方还预告了 Boogu-Image-0.1-Pro 和 Boogu-Image-0.1-Turbo-Thinking 两个进阶版本,前者结合 Base 与 Turbo 的能力,后者则进一步在质量与推理时间上权衡。

二、核心能力:摄影真实感、中英双语文本渲染、风格化生成

Boogu-Image-0.1 在多个核心维度上展现了开源模型的顶尖水平。根据官方和社区实测,其主要能力集中在以下几个方向:

1. 高质量摄影生成

官方重点强调模型对摄影提示词的理解能力,包括人像摄影、商业广告摄影、时尚大片、产品摄影、电影感镜头等,能够较准确地还原提示词中的摄影语言。实测中,Turbo 在 4 步内即可生成约 1024×1024 分辨率的逼真摄影作品,耗时约 14 秒,皮肤细节、毛孔表现、光影层次都有不错的真实感。在复杂构图测试中,Boogu 对”Aerial view””Top-down shot”等高空俯拍语义理解准确,能够生成真正的高空视角。

2. 中英双语文字渲染

相比很多海外模型在中文上常见的乱码、缺字、错别字、排版混乱问题,Boogu-Image-0.1 在中文支持方面明显更友好。官方展示案例涵盖海报设计、标语生成、招牌设计、广告图制作,即使是复杂汉字也能保持不错的可读性。在中文海报生成测试中,Turbo 表现不错,海报中的日期、标题、中文字符都没有明显崩坏。Base 版本在密集文本渲染方面表现更佳,适合海报、文档、品牌指南等超密集双语文本场景。

3. 多风格生成与图像编辑

Boogu-Image-0.1 支持丰富多样的风格化生成,包括 3D 微缩模型、像素风、中国风插画、动漫风、美漫风、2.5D 风格、游戏概念设计等。在二次元风格测试中,Boogu 表现出色,线条扎实、人物轮廓清晰、结构稳定。Edit 模型则支持物体插入、替换与移除,属性与材质修改,背景与场景替换,以及跨艺术风格的忠实风格迁移。

4. 个性化海报设计与产品渲染

模型能生成个性化的海报布局和干净的产品可视化图像,具备一致的品牌风格、精致的字体排印,以及达到产品级标准的灯光与构图。同时还支持细粒度的图像内文本编辑——可替换、添加或删除中英文字符,并灵活调整字体、字重、颜色和布局。

三、评测表现:对标闭源 SOTA,开源第一梯队

Boogu-Image-0.1 的官方评测数据相当亮眼。在自建的 Boogu Arena(基于 LLM 生成的多样用户角色与 1000+ 提示词的 ELO 偏好评测)中,Boogu-Image-0.1 家族在所有参评的开源与闭源系统中位列前排,与 GPT-Image、Nano-Banana-Pro 等闭源系统同台竞技。

在 Qwen-Image-Bench 上,Boogu-Image-0.1(10B,53.58 分)在所评测的开源模型中排名第一,超过了参数量更大的 Qwen-Image-2512(20B,52.06 分)和 Hunyuan-Image-3.0(80B,50.81 分)。这表明在不显著扩大参数规模的情况下,也可以获得有竞争力的 benchmark 表现。

具体到各项指标,Boogu-Image-0.1 在质量(51.19)、美学(55.42)、对齐(55.78)、真实世界保真度(48.01)、创意生成(55.55)上均有不错表现,总体得分 53.58,虽然与 GPT Image 2(64.69)、Nano Banana 2.0(59.82)等闭源顶尖模型仍有差距,但在开源阵营中已属顶尖水平。

在图像编辑能力方面,Boogu-Image-0.1-Edit 在 ImgEdit_O 评测中得分 4.64,领先于 JoyAI(4.57)、FireRed-Image-Edit(4.56)、Qwen-Image-Edit-2511(4.51)等主流开源编辑模型,甚至超过了 Nano Banana Pro(4.37)、Seedream 4.5(4.32)等闭源系统。

按场景细分,Turbo 在逼真摄影与简单文本渲染上同时表现良好,Base 更适合密集/超密集双语文本场景。官方建议:任务以密集或超密集文本渲染为主时,推荐使用 Boogu-Image-0.1-Base 并设置 2K 输出分辨率,以获得最佳版式保真度与字符准确性。

四、本地部署:ComfyUI 整合包与显存配置

Boogu-Image-0.1 发布后,ComfyUI 社区第一时间跟进,目前已提供文生图工作流和图片编辑工作流,对应节点均可正常运行。模型依赖包括 Text Encoder(Qwen3-VL-8B)和 VAE(FLUX.1 VAE)。

1. 模型版本与体积

ComfyUI 版本提供 Base、Turbo、Edit 三个变体,每个变体均有 BF16、FP8、NFP4 三种量化版本,总计 9 个模型版本。对应体积大致为:BF16 约 20GB,FP8 约 10GB,NFP4 约 6GB。建议根据显存选择:8GB 显存用 NFP4,12GB 显存用 FP8,24GB 显存以上用 BF16。

2. 显存配置参考

不同显存档位下推荐的优化开关组合有所不同:

12GB 显存(1K T2I):非量化用 --enable_sequential_cpu_offload_flag;量化用 --enable_model_cpu_offload_flag --use_fp8_weights。
16GB 显存:与非量化 12GB 配置相同,量化版本同样用 model offload + fp8。
24GB 显存(如 RTX 4090):非量化用 --enable_model_cpu_offload_flag;量化直接用 --use_fp8_weights。
32GB/40GB/80GB 显存:可逐步关闭 offload,直接使用基础模型。

需要注意的是,在 24GB RTX 4090 上,bf16 完整管线约 37GB(20GB transformer + 17GB MLLM),无法完全载入,必须进行 offload。实测中,Edit 模型使用 group offload + 原生分辨率后,峰值显存可降至约 16GB。

3. ComfyUI 整合包一键部署

社区已推出 Boogu-Image-0.1 ComfyUI 整合包,无需手动下载模型、无需配置 ComfyUI 环境、无需折腾 Python 依赖,真正做到”下载 → 解压 → 运行 → 开始生成”。使用流程为:下载全部分卷压缩包放在同一目录解压,运行 comfyui.bat 启动 ComfyUI,再运行 gradio.bat 启动 Web 界面,浏览器访问 http://127.0.0.1:7860/ 即可进入生成界面。

4. 命令行推理示例

以图像编辑(TI2I)为例,推理脚本如下:

export device="cuda:0"
mkdir -p outputs/test_ti2i/
python inference.py \
  --pretrained_pipeline_name_or_path "Boogu/Boogu-Image-0.1-Edit" \
  --input_image_paths "input_image_examples/03.jpg" \
  --instruction "Change the style to a colored pencil drawing." \
  --num_inference_steps 50 \
  --height 1024 --width 1024 \
  --text_guidance_scale 5.0 --image_guidance_scale 1.0 \
  --output_image_path "outputs/test_ti2i/out_1.png" \
  --device "$device"

官方建议将输入图片整体 resize 到 1M pixels,而不是短边 resize 到 1k,以与官方训练适配。

五、实测效果与已知不足:Edit 仍是短板

从社区实测来看,Boogu-Image-0.1 在文生图方面表现令人惊喜,尤其在摄影人像、商业摄影、产品摄影等场景效果相当不错,配合高清放大后皮肤细节、毛孔表现、光影层次都有不错的真实感。Turbo 版本速度极快,几秒钟即可完成生成,完全可作为日常创作的默认选择。

但 Edit 图片编辑部分暂时还有明显短板。实测中发现:

删除物体时出现严重偏移:例如删除周杰伦手中的手机,虽然手机成功删除,但人物位置变化、镜头距离变化、构图变化明显,原本半身照直接变成特写镜头。
AI 换装时人物比例变化:服装迁移成功,但人物比例变化、景别变化、构图变化比较明显。
雕塑编辑一致性差:给雕塑添加墨镜、帽子和香烟,雕塑位置变化明显,构图改变,一致性较差。

解决偏移问题的方法:增加一个 Flux Context Image 节点,先将图片压缩到约 100 万像素,然后再进行编辑,效果会有明显改善。优化后人物位置几乎保持不变,景别基本一致,构图偏移接近于零,服装迁移也比较准确,整体效果甚至接近 Qwen-Image-Edit-2511 这类优秀编辑模型。

在 Edit 模型的 image_guidance_scale 参数上,官方默认 1.0 会禁用图像 CFG,适合大胆编辑,但在剧烈场景变化时人脸会漂移;提高到约 3 可以锁定身份,但编辑会变得保守。

此外,Boogu-Image-0.1 Base 在大场景生成时存在噪点、颗粒、地面纹理异常等问题,即使使用 45 Steps 依然存在,可能还需要进一步优化。

官方也坦诚列出了模型目前的不足:

世界知识不足:相比 GPT-Image、Midjourney 等闭源模型,知识覆盖面较弱,理解能力仍有差距。
图像一致性一般:连续生成时人物稳定性、场景连续性还有优化空间;在严格保持输入主体的编辑任务中,Boogu 的图像到图像一致性仍不够稳定,在部分上下文生成场景中仍落后于 Seedream 5.0 和 Nano Banana Pro。
复杂文字仍不成熟:长文本、密集排版、小字体和复杂设计布局仍可能出现错字、缺字、排版偏移;其他语言未专门优化,可能明显退化。
肢体细节问题:在复杂动作下,手部、手指、小型肢体仍可能出现畸形;在多人互动、遮挡、夸张动作或异常视角下,身体结构可能不自然或不一致。
小面孔与小肢体:由于使用开源 FLUX.1 VAE,重建损失较大,小面孔、小肢体、眼睛和文字等细节仍可能出现伪影或不稳定。

六、与 Ideogram 4 的互补:开源文生图最高水平

值得注意的是,在 Civitai 等社区,已有创作者将 Boogu-Image 与 Ideogram 4 搭配使用,形成”内容理解 + 设计控制”的完整工作流。Boogu-Image 在密集文字渲染、摄影逼真度、一体化理解系统方面表现突出,Ideogram 4 则在结构化 JSON 控制、设计工作流集成、2K 原生输出、精确布局控制方面见长。

Ideogram 4 基于 JSON 描述(场景摘要、风格块、背景,以及带边界框和十六进制调色板的逐对象描述)进行训练,使用流匹配与非对称无分类器引导。两者结合代表了当前开源文生图领域的最高水平——Boogu 在内容理解与文字精度上的优势,加上 Ideogram 在设计控制与工作流集成上的专长,能够满足从概念设计到成品输出的完整创意需求。

七、总结:开源阵营的新标杆,Edit 仍待迭代

Boogu-Image-0.1 虽然是一个刚刚发布的新模型,但第一版已经展现出不错的实力。目前最值得体验的是:摄影风格生成、中文文字渲染、Turbo 极速出图、开源可本地部署。Turbo 版本在 3-4 步内生成高质量逼真摄影作品的能力,使其成为日常创作的默认选择;Base 版本在超密集文本渲染方面的优势,则为海报设计、文档生成等专业场景提供了开源解决方案。

而图片编辑部分暂时还有明显短板,需要等待后续版本迭代。从 Edit Turbo 已被官方预告来看,团队显然意识到了这一问题,后续优化值得期待。

对于 AI 绘画爱好者和开发者而言,Boogu-Image-0.1 的开源无疑是一个重要里程碑——它证明了在 Apache-2.0 协议下,10B 参数的开源模型也能在对标闭源 SOTA 的道路上走得更远。无论是通过魔搭创空间在线体验,还是通过 ComfyUI 整合包本地部署,都值得亲手一试。

文章来源:本文基于魔搭 ModelScope 社区发布的《Boogu-Image-0.1 开源:统一图像生成与编辑家族,Turbo 仅 3-4 步生成对标闭源 SOTA》及公开网络资料整理改写,原文发布于 2026 年 6 月 22 日。模型权重与代码已开源至魔搭社区与 GitHub,项目主页:https://boogu.org/。

文章版权归作者所有，未经允许请勿转载。

Boogu-Image-0.1 开源:10B 参数对标闭源 SOTA,Turbo 仅 3-4 步出图,ComfyUI 整合包抢先体验

一、Boogu-Image-0.1 是什么?统一理解与生成的开源新范式