摘要:近日,通义千问(Qwen)团队发布了一项突破性研究成果——Qwen-Image-Layered,标志着AI图像编辑从“像素重绘”迈入“图层操作”的新纪元。该技术通过将图像自动解耦为多个带透明度的RGBA图层,实现了对图像中特定元素的精准、无损编辑,从根本上解决了传统AI修图“牵一发而动全身”的难题,为专业设计、内容创作等领域带来了革命性的工具。
传统的AI图像生成与编辑模型,如扩散模型,通常将图像视为一个不可分割的像素整体进行理解和处理。当用户希望修改图片中的某个局部(如移动一个物体、替换一件衣服)时,模型往往需要对整张图片进行全局重采样,这极易导致不相关区域发生不可控的畸变或风格改变,被形象地比喻为“在湿透的画纸上改色”。
Qwen-Image-Layered的研究提出了一种根本性的范式转移。它不再将图像看作扁平的像素集合,而是将其表示为一组语义解耦的RGBA图层。RGBA代表红、绿、蓝三原色加上透明度(Alpha)通道。这意味着模型能像设计师使用Photoshop一样,将一张图片自动“剥洋葱”式地分解为前景、背景、文字等多个独立的、带有透明信息的图层。
这种“内生可编辑性”(Inherent Editability)带来了物理隔离般的编辑保护,具体体现在三大核心能力上:
这项工作的革新性不仅在于效果,更在于其底层架构的重构。它让AI具备了像人类设计师一样“看图”的逻辑思维。
在与LayerD等主流图层化方案的对比评测中,Qwen-Image-Layered展现了显著的优势,验证了其技术路线的先进性:
这项技术的意义远不止于修图效果的提升。它预示着AI图像将从单一的“结果输出”转变为可被灵活编辑和重复利用的“结构化数字资产”。这极大地降低了专业图像编辑的门槛,使得非专业用户也能轻松完成过去需要复杂软件操作的任务。
目前,该模型已在魔搭(ModelScope)社区全面开源,并提供了在线演示和详细的训练指南。社区开源项目DiffSynth-Studio已率先支持用户基于Qwen-Image-Layered进行模型微调(LoRA训练),方便开发者和研究者探索个性化的图层编辑应用。这意味着,一个围绕“可编辑AI图像”的新开发生态正在形成。
Qwen-Image-Layered的成功,为AI内容生成领域指明了下一个重要方向:可控制性与可编辑性。未来的AI创作流程,将可能从依赖大量提示词(Prompt)进行“抽卡式”的随机生成,转变为像“搭积木”一样对结构化视觉元素进行精准组合与调整。这不仅将提升创作效率,更能确保创意意图的准确实现,在广告设计、游戏开发、影视制作、电子商务等需要高频次、精细化图片处理的领域具有巨大的应用潜力。
结语 Qwen-Image-Layered通过引入图层化思维,为AI图像处理补齐了“精准编辑”这块长期缺失的关键拼图。它不仅是通义千问团队在多模态AI领域的一项重大技术突破,更可能引发从技术研发到应用生态的一系列连锁变革,推动整个行业向更可控、更专业、更高效的方向演进。
文章来源:本文基于通义千问团队发布的官方技术报告与博客,结合AI图像编辑、新闻稿写作及SEO优化相关公开资料进行综合撰写与解读。核心信息援引自魔搭ModelScope社区发布的《告别“扁平思维”:Qwen-Image-Layered 开启 AI 图片的图层革命》一文(发布时间:2025年12月20日)。