专业级海报设计迎来AI革命:南大联合团队发布PosterCopilot,定义智能设计新范式

Ai资讯3周前发布 大国Ai
247 0 0

摘要:南京大学联合LibLib.ai、中国科学院自动化所等顶尖机构,于近日发布首个解耦布局推理与多轮可控编辑的图形设计大模型——PosterCopilot。该模型通过独创的三阶段训练策略,攻克了现有AI设计工具在几何布局、视觉反馈、创意多样性和图层级编辑上的四大核心痛点,实现了从素材规划到精细化编辑的全链路专业设计能力。实验表明,其在多项指标上全面超越微软Designer等商业及学术竞品,并已完成对国产昇腾算力平台的适配,标志着我国在AI创意设计领域取得关键突破。

专业级海报设计迎来AI革命:南大联合团队发布PosterCopilot,定义智能设计新范式

填补专业工作流鸿沟:从“生成式失控”到“智能协同”

平面设计是视觉传达的基石,但实现真正的自动化专业设计始终面临巨大挑战。尽管以Stable Diffusion为代表的文生图模型在图像合成上表现强劲,但在实际工业设计流程中,它们因无法处理分层结构,常导致用户素材失真且难以进行精细化控制。多模态大模型(LMMs)被尝试用于布局规划,但研究团队发现,现有方案存在几何布局扭曲、缺乏视觉反馈、创意多样性被扼杀以及无法支持图层级迭代编辑等四大致命短板。

为此,来自南京大学PRLab的魏佳哲、李垦等研究者在准聘助理教授司晨阳的指导下,联合LibLib.ai、中国科学院自动化研究所,提出了专业级海报设计与编辑大模型PosterCopilot。该研究旨在构建一个能够理解设计师“图层思维”、支持多轮交互的智能设计助手,而不仅仅是一个单次布局生成器。

核心技术突破:三阶段训练赋予模型“设计思维”

为从根本上解决现有问题,研究团队摒弃了将布局生成视为简单坐标回归的传统思路,首创了一套渐进式三阶段训练范式,将分布学习与强化学习相结合,赋予模型类似人类的设计推理与美学判断能力。

  1. 扰动监督微调(PSFT):针对现有模型将连续空间坐标量化为离散文本Token导致的几何空间扭曲问题,团队引入高斯噪声扰动。这一创新迫使模型学习坐标的分布规律,而非死记硬背离散点,从而修复了优化空间的几何连续性,使模型能够理解真实的物理距离与空间关系。
  2. 视觉-现实对齐强化学习(RL-VRA):这是解决模型“视觉盲区”的关键。团队引入了基于DIoU(距离交并比)和元素保真度的可验证奖励信号。通过让模型在训练中接收布局渲染后的视觉反馈,专门修正因“幻觉”产生的元素重叠、比例失调等问题,使模型生成的结果符合视觉现实。
  3. 美学反馈强化学习(RLAF):为了激发模型的创造力,避免其陷入“单一真值回归陷阱”,团队利用美学奖励模型进行偏好对齐。这一阶段鼓励模型探索那些偏离训练数据中的“标准答案”,但更具视觉冲击力和美学表现力的布局方案,从而生成多样且优质的设计。

全能设计助手:覆盖从灵感到成稿的全链路场景

PosterCopilot不仅仅是一个模型,更是一个集成了“接待模型”和“文生图模型”的生成式智能体(Generative Agent)。它能够理解用户抽象的设计意图,自动将其拆解为具体的素材规划,并驱动生成风格契合的高质量图像,实现了从“想法”到“物料”的无缝衔接。基于此,PosterCopilot能够完美胜任多种专业设计场景:

  • 全素材海报生成:当用户提供全部设计元素时,模型专注于极致的“布局推理”,将多模态元素在画布上进行符合美学规律的精准排列,同时严格保证用户原有素材零失真。
  • 缺素材智能补全:面对仅有文字或部分素材的“冷启动”场景,智能体能够自动理解设计主题,生成风格统一的背景或前景装饰层,实现从零到一的完整创作。
  • 多轮精细化编辑:打破了传统模型“牵一发而动全身”的局限,支持精准的单图层修改(如仅更换产品颜色)、全局主题迁移(如将促销主题从棒棒糖切换为冰淇淋)等专业级操作,且能完美保持非编辑区域不变。
  • 智能尺寸重构:用户只需更改画布尺寸参数,模型即可根据新的长宽比智能重新推理整体布局,一键适配社交媒体、印刷海报等不同媒介的版面要求。

实验表现:全面领先的商业级竞争力

研究团队以Qwen-2.5-VL-7B-Instruct模型为骨干构建了PosterCopilot。在涵盖布局合理性、视觉吸引力、风格一致性、元素保真度、文本可读性及指令跟随六大维度的综合评测中,PosterCopilot展现了统治级的表现。

在人工评测中,PosterCopilot对比微软Microsoft Designer、Nano-Banana以及学术界SOTA模型(如CreatiPoster、LaDeCo),平均胜率超过74%。即便在由GPT-5进行的自动化评估中,PosterCopilot在布局合理性和风格一致性等核心指标上也大幅领先于参数量更大的Qwen-VL-2.5-72B和Gemini 2.5 Pro等顶级通用视觉大模型。

产业意义与未来展望

PosterCopilot的发布不仅是学术上的创新,更具有深远的产业意义。该模型已获得华为-南京大学鲲鹏昇腾科教创新孵化中心的支持,完成了对国产昇腾算力平台的适配与部署,推动了国产AI设计技术的自主化落地。

当前,人工智能与垂直行业的深度融合正成为趋势。例如,在交通运输领域,AI通过融合“北斗+5G”高精度定位,正从“感知位置”向“认知场景”的“时空智能”跨越,催生了车道级导航、智能网联车等创新应用。同样,PosterCopilot通过将AI与专业的平面设计知识深度融合,实现了从“生成像素”到“理解构图与美学”的跨越,为设计、营销、传媒等行业提供了强大的生产力工具。

中国科学院院士李德仁曾指出,万物互联时代,时空数据的处理与知识挖掘必须走向智能。同理,在创意产业中,对视觉元素、美学规律和设计逻辑的挖掘与应用也必然走向智能化。PosterCopilot通过解耦布局推理与生成式编辑,并引入强化学习对齐人类美学偏好,成功让大模型掌握了专业设计师的“图层思维”与迭代工作流。这不仅为智能设计工具树立了新的技术基准,也为未来AI辅助人类进行复杂创意工作提供了可复用的新范式。


文章来源:本文基于机器之心发布的《南大联合LibLib.ai、中科院自动化所,共同提出布局推理与精准编辑「海报设计大模型」PosterCopilot》进行改写与信息扩充,并参考了人工智能在北斗导航、交通运输等领域融合应用的相关行业动态。

© 版权声明

相关文章

暂无评论

none
暂无评论...