摘要: 阿里巴巴通义千问团队近日开源了其创新的图像处理模型Qwen-Image-Layered。该模型能够将单张图像智能分解为多个独立的RGBA透明图层,从根本上解决了AI图像编辑中的“一致性”难题,实现了类似Photoshop的专业级图层编辑体验。模型采用Apache 2.0协议完全开源,支持可变图层数量与无限递归分解,并可直接导出为PSD格式,有望重塑专业设计领域的工作流程。
在当前的AI图像生成与编辑领域,一个长期困扰用户和开发者的核心问题是“栅格图像纠缠”。当用户试图修改图像的某一部分时,例如更改背景颜色或移动前景物体,模型往往会导致图像其他无关部分发生不可控的扭曲或变化,破坏了编辑的一致性。
Qwen-Image-Layered的发布,标志着这一难题获得了全新的解决思路。它不再试图在“打成一片”的像素中直接进行编辑,而是借鉴了专业设计师的工作流,首先将输入的图像分解为多个物理隔离的RGBA(红、绿、蓝、透明度)图层。每个图层承载图像中的一个语义或结构组件,并拥有独立的透明背景。这种“先分解,后编辑”的范式,从物理层面确保了编辑操作的精准与独立,实现了高保真度的图像修改。
根据官方介绍及技术文档,Qwen-Image-Layered具备以下几项突出能力:
Qwen-Image-Layered并非凭空诞生,它建立在通义千问强大的图像生成模型Qwen-Image之上。Qwen-Image本身是一个200亿参数的多模态大模型,采用MMDiT(多模态扩散变换器)架构,在复杂的图文混合生成(如海报、书籍封面)和文本渲染方面表现出色。其后续的增强版本Qwen-Image-Edit进一步优化了图像编辑的一致性,减轻了主体偏移问题,并提升了多图像融合等能力。
Qwen-Image-Layered可以看作是这一技术路线的深化与创新。它在技术层面引入了三个关键组件:RGBA-VAE,用于统一RGB和RGBA图像的潜在表示;VLD-MMDiT,一种可变层数分解架构;以及一套多阶段训练策略,将预训练模型微调为专业的图层分解器。值得注意的是,其训练数据并非合成,而是从真实的PSD源文件中提取和标注的多层图像数据,这保证了模型对专业图层结构的深刻理解。
该模型已完全开源,采用宽松的Apache 2.0许可证,代码与模型权重已在多个主流平台发布。对于开发者而言,可以通过Hugging Face或ModelScope获取模型,并提供了详细的安装与使用教程。部署时需确保transformers库版本不低于4.51.3,并安装最新版diffusers。
transformers
diffusers
模型提供了多种使用方式:
Qwen-Image-Layered的推出,在AI社区和设计领域引发了广泛关注。有评论将其称为“革命性分层图像编辑模型”,实现了“‘Photoshop图层’般的精细化AI图像处理能力”。它的意义在于,将AI从“生成与猜测”的工具,转变为能够理解并输出结构化、可编辑内容的“协作伙伴”。
其应用场景广泛:
当然,模型目前也存在一定的局限性,例如其权重主要针对“图像转多层”任务优化,直接用文本提示生成多层图像的效果可能有限;同时,对计算资源(尤其是显存)有一定要求。
总体而言,Qwen-Image-Layered是通义千问团队在多模态AI领域交出的一份亮眼答卷。它没有选择在原有赛道上继续内卷,而是开辟了“图像原生分解”这一新方向,通过将专业设计理念与AI技术深度融合,为解决图像编辑的根本性问题提供了优雅且实用的方案。随着模型的进一步迭代和开源社区的共同努力,它有望成为连接AI创造力与专业设计工作流的关键桥梁,推动“人工智能+设计”迈向更深度的融合。
文章来源:本文综合整理自通义千问官方技术博客、ModelScope项目页面及相关技术社区讨论,核心信息源自阿里巴巴Qwen团队于2025年12月发布的Qwen-Image-Layered开源项目。