摘要:南京大学联合LibLib.ai、中国科学院自动化所等顶尖机构,于近日发布首个解耦布局推理与多轮可控编辑的图形设计大模型——PosterCopilot。该模型通过独创的三阶段训练策略,攻克了现有AI设计工具在几何布局、视觉反馈、创意多样性和图层级编辑上的四大核心痛点,实现了从素材规划到精细化编辑的全链路专业设计能力。实验表明,其在多项指标上全面超越微软Designer等商业及学术竞品,并已完成对国产昇腾算力平台的适配,标志着我国在AI创意设计领域取得关键突破。
平面设计是视觉传达的基石,但实现真正的自动化专业设计始终面临巨大挑战。尽管以Stable Diffusion为代表的文生图模型在图像合成上表现强劲,但在实际工业设计流程中,它们因无法处理分层结构,常导致用户素材失真且难以进行精细化控制。多模态大模型(LMMs)被尝试用于布局规划,但研究团队发现,现有方案存在几何布局扭曲、缺乏视觉反馈、创意多样性被扼杀以及无法支持图层级迭代编辑等四大致命短板。
为此,来自南京大学PRLab的魏佳哲、李垦等研究者在准聘助理教授司晨阳的指导下,联合LibLib.ai、中国科学院自动化研究所,提出了专业级海报设计与编辑大模型PosterCopilot。该研究旨在构建一个能够理解设计师“图层思维”、支持多轮交互的智能设计助手,而不仅仅是一个单次布局生成器。
为从根本上解决现有问题,研究团队摒弃了将布局生成视为简单坐标回归的传统思路,首创了一套渐进式三阶段训练范式,将分布学习与强化学习相结合,赋予模型类似人类的设计推理与美学判断能力。
PosterCopilot不仅仅是一个模型,更是一个集成了“接待模型”和“文生图模型”的生成式智能体(Generative Agent)。它能够理解用户抽象的设计意图,自动将其拆解为具体的素材规划,并驱动生成风格契合的高质量图像,实现了从“想法”到“物料”的无缝衔接。基于此,PosterCopilot能够完美胜任多种专业设计场景:
研究团队以Qwen-2.5-VL-7B-Instruct模型为骨干构建了PosterCopilot。在涵盖布局合理性、视觉吸引力、风格一致性、元素保真度、文本可读性及指令跟随六大维度的综合评测中,PosterCopilot展现了统治级的表现。
在人工评测中,PosterCopilot对比微软Microsoft Designer、Nano-Banana以及学术界SOTA模型(如CreatiPoster、LaDeCo),平均胜率超过74%。即便在由GPT-5进行的自动化评估中,PosterCopilot在布局合理性和风格一致性等核心指标上也大幅领先于参数量更大的Qwen-VL-2.5-72B和Gemini 2.5 Pro等顶级通用视觉大模型。
PosterCopilot的发布不仅是学术上的创新,更具有深远的产业意义。该模型已获得华为-南京大学鲲鹏昇腾科教创新孵化中心的支持,完成了对国产昇腾算力平台的适配与部署,推动了国产AI设计技术的自主化落地。
当前,人工智能与垂直行业的深度融合正成为趋势。例如,在交通运输领域,AI通过融合“北斗+5G”高精度定位,正从“感知位置”向“认知场景”的“时空智能”跨越,催生了车道级导航、智能网联车等创新应用。同样,PosterCopilot通过将AI与专业的平面设计知识深度融合,实现了从“生成像素”到“理解构图与美学”的跨越,为设计、营销、传媒等行业提供了强大的生产力工具。
中国科学院院士李德仁曾指出,万物互联时代,时空数据的处理与知识挖掘必须走向智能。同理,在创意产业中,对视觉元素、美学规律和设计逻辑的挖掘与应用也必然走向智能化。PosterCopilot通过解耦布局推理与生成式编辑,并引入强化学习对齐人类美学偏好,成功让大模型掌握了专业设计师的“图层思维”与迭代工作流。这不仅为智能设计工具树立了新的技术基准,也为未来AI辅助人类进行复杂创意工作提供了可复用的新范式。
文章来源:本文基于机器之心发布的《南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot》进行改写与信息扩充,并参考了人工智能在北斗导航、交通运输等领域融合应用的相关行业动态。