阿里通义千问开源革命性图像模型,Qwen-Image-Layered实现PS级图层自动分解

Ai资讯2天前发布 大国Ai
55 0 0

摘要: 阿里巴巴通义千问团队近日开源了其创新的图像处理模型Qwen-Image-Layered。该模型能够将单张图像智能分解为多个独立的RGBA透明图层,从根本上解决了AI图像编辑中的“一致性”难题,实现了类似Photoshop的专业级图层编辑体验。模型采用Apache 2.0协议完全开源,支持可变图层数量与无限递归分解,并可直接导出为PSD格式,有望重塑专业设计领域的工作流程。

一、技术突破:从“栅格纠缠”到“图层隔离”

在当前的AI图像生成与编辑领域,一个长期困扰用户和开发者的核心问题是“栅格图像纠缠”。当用户试图修改图像的某一部分时,例如更改背景颜色或移动前景物体,模型往往会导致图像其他无关部分发生不可控的扭曲或变化,破坏了编辑的一致性。

阿里通义千问开源革命性图像模型,Qwen-Image-Layered实现PS级图层自动分解

Qwen-Image-Layered的发布,标志着这一难题获得了全新的解决思路。它不再试图在“打成一片”的像素中直接进行编辑,而是借鉴了专业设计师的工作流,首先将输入的图像分解为多个物理隔离的RGBA(红、绿、蓝、透明度)图层。每个图层承载图像中的一个语义或结构组件,并拥有独立的透明背景。这种“先分解,后编辑”的范式,从物理层面确保了编辑操作的精准与独立,实现了高保真度的图像修改。

二、核心功能与特点:赋予图像“可编辑性”

根据官方介绍及技术文档,Qwen-Image-Layered具备以下几项突出能力:

  1. 原生RGBA图层分解:模型能够端到端地将一张普通图像输出为多个可独立编辑的RGBA图层,为后续的精细化操作奠定了基础。
  2. 灵活可变的分解层级:用户可以根据需求,指定将图像分解为3层、8层或其他数量(支持3-10层),实现从整体布局到细节元素的按需拆解。
  3. 支持无限递归分解:该模型的能力不止于单次分解。任何一个已分解出的图层,都可以作为新的输入,被进一步分解为更细粒度的子图层,理论上支持无限深度的嵌套,为超精细化编辑提供了可能。
  4. 多格式导出,无缝衔接专业工具:分解后的图层支持导出为PPTX、ZIP以及最重要的PSD(Photoshop文档)格式。这意味着AI的分解结果可以直接导入Adobe Photoshop等专业设计软件中进行后续处理,极大地提升了其在真实工作场景中的实用性。
  5. 一致的编辑体验:基于图层分解,一系列原本复杂的编辑操作变得简单可靠。例如,可以仅对目标图层进行重新着色、替换对象(如将女孩替换为男孩)、修改文字,或者干净地删除不需要的物体,而其他图层内容完全不受影响。此外,对图层对象进行无损缩放、在画布内自由移动等基本操作也变得轻而易举。

三、技术原理与模型演进

Qwen-Image-Layered并非凭空诞生,它建立在通义千问强大的图像生成模型Qwen-Image之上。Qwen-Image本身是一个200亿参数的多模态大模型,采用MMDiT(多模态扩散变换器)架构,在复杂的图文混合生成(如海报、书籍封面)和文本渲染方面表现出色。其后续的增强版本Qwen-Image-Edit进一步优化了图像编辑的一致性,减轻了主体偏移问题,并提升了多图像融合等能力。

Qwen-Image-Layered可以看作是这一技术路线的深化与创新。它在技术层面引入了三个关键组件:RGBA-VAE,用于统一RGB和RGBA图像的潜在表示;VLD-MMDiT,一种可变层数分解架构;以及一套多阶段训练策略,将预训练模型微调为专业的图层分解器。值得注意的是,其训练数据并非合成,而是从真实的PSD源文件中提取和标注的多层图像数据,这保证了模型对专业图层结构的深刻理解。

四、开源生态与获取方式

该模型已完全开源,采用宽松的Apache 2.0许可证,代码与模型权重已在多个主流平台发布。对于开发者而言,可以通过Hugging Face或ModelScope获取模型,并提供了详细的安装与使用教程。部署时需确保transformers库版本不低于4.51.3,并安装最新版diffusers

模型提供了多种使用方式:

  • 代码调用:通过简单的Python脚本即可进行图层分解。
  • Web界面体验:项目提供了Gradio演示界面,用户无需编码即可在线体验分解与编辑功能。
  • 生产环境部署:据悉,高性能推理框架vLLM-Omni已经支持对Qwen-Image-Layered的部署,为大规模应用提供了便利。

五、行业影响与应用前景

Qwen-Image-Layered的推出,在AI社区和设计领域引发了广泛关注。有评论将其称为“革命性分层图像编辑模型”,实现了“‘Photoshop图层’般的精细化AI图像处理能力”。它的意义在于,将AI从“生成与猜测”的工具,转变为能够理解并输出结构化、可编辑内容的“协作伙伴”。

其应用场景广泛:

  • 广告与平面设计:快速分解现有素材,进行元素替换、配色调整和版面重组。
  • 游戏与影视美术:辅助进行场景元素的分离与迭代。
  • 电子商务:对产品图进行背景更换、模特替换等标准化编辑。
  • 内容创作:为视频博主、自媒体提供高效的图片素材处理方案。

当然,模型目前也存在一定的局限性,例如其权重主要针对“图像转多层”任务优化,直接用文本提示生成多层图像的效果可能有限;同时,对计算资源(尤其是显存)有一定要求。

六、结语

总体而言,Qwen-Image-Layered是通义千问团队在多模态AI领域交出的一份亮眼答卷。它没有选择在原有赛道上继续内卷,而是开辟了“图像原生分解”这一新方向,通过将专业设计理念与AI技术深度融合,为解决图像编辑的根本性问题提供了优雅且实用的方案。随着模型的进一步迭代和开源社区的共同努力,它有望成为连接AI创造力与专业设计工作流的关键桥梁,推动“人工智能+设计”迈向更深度的融合。


文章来源:本文综合整理自通义千问官方技术博客、ModelScope项目页面及相关技术社区讨论,核心信息源自阿里巴巴Qwen团队于2025年12月发布的Qwen-Image-Layered开源项目。

© 版权声明

相关文章

暂无评论

none
暂无评论...