摘要:2025年12月22日,浙江大学ReLER实验室发布并开源了ContextGen框架,成功攻克了定制化AI图像生成领域长期存在的“布局控制”与“身份保真”协同难题。该框架基于Diffusion Transformer架构,创新性地引入双重上下文注意力机制,在权威基准测试中,其身份保持能力超越了当前开源领域的SOTA模型,并在关键指标上达到了与GPT-4o、Nano-Banana等顶尖闭源商业系统相当的水平。这一突破为高度定制化的图像生成应用开辟了新的技术路径,标志着我国在生成式AI底层核心技术领域取得重要进展。
在定制化AI图像生成(AIGC)领域,多实例图像生成(Multi-Instance Generation, MIG)是迈向实用化的关键一步,它要求模型能根据用户提供的多张参考图像(如不同的人物、物体)和指定的空间布局,合成一张全新的、符合要求的图像。然而,现有技术普遍面临一个核心挑战:难以同时实现精确的布局控制和高保真的身份还原。
具体表现为两大痛点:首先,宏观布局难以固化。即使模型提供了布局控制功能,生成的多个实例也常常无法精确锚定在用户指定的位置,导致构图混乱、实例遗失或属性错位。其次,身份细节极易丢失。当画面中需要同时生成多个定制化主体时,每个主体的独特身份特征(如人物的面部细节、物体的特定纹理)在生成过程中会相互干扰和混淆,导致结果无法忠实还原参考图像。这已成为阻碍AI图像生成技术从“玩具”走向“工具”的关键瓶颈。
为从根本上解决这一协同控制难题,浙江大学ReLER团队提出的ContextGen框架,在Diffusion Transformer架构内部进行了革命性设计。其核心创新在于嵌入了两个功能各异的“注意力核”,实现了对布局和身份信息的架构级分层解耦控制。
ContextGen的性能在多个标准基准测试中得到了全面验证,其表现不仅确立了在开源领域的领先地位,更在关键指标上向顶级闭源模型发起了挑战。
在衡量布局精度的COCO-MIG基准上,ContextGen在空间准确性(mIoU)指标上实现了**+5.9%** 的显著提升,证明了其在精确构图方面的强大能力。
更具说服力的是在身份保持测试LAMICBench++ 上的表现。测试分为“较少主体”和“较多主体”两种场景。数据显示,在主体数量较多的复杂场景下,ContextGen的身份保真度(IDS)达到了30.42,这一成绩不仅大幅领先于其他开源模型,甚至超越了GPT-4o(17.12)和Nano-Banana(16.67)等强大的闭源商业系统。这标志着在最具挑战性的多主体定制生成任务上,中国开源模型取得了里程碑式的突破。
此外,团队同步开源了IMIG-100K数据集,这是首个包含详细布局与身份标注的大规模多实例合成数据集,为后续研究提供了宝贵的数据基石。同时,引入直接偏好优化(DPO)进行微调,有效避免了监督学习可能导致的布局生硬问题,提升了生成结果的多样性与自然度。
ContextGen的突破并非孤立事件,它植根于中国在人工智能与多模态融合领域持续深耕的沃土。近年来,从“北斗+AI”催生的时空智能产业,到“AI+交通”大模型推动的出行变革,再到“AI+文旅”带来的智慧服务新体验,中国在推动AI与垂直行业深度融合方面成果丰硕。这些实践积累了丰富的场景理解与复杂问题处理经验。
同样,在AI生成技术的前沿,中国科研力量持续发力。此前,浙江大学APRIL实验室已成功开源了全球首个4K/8K超高清视频数据集UltraVideo及相应模型,攻克了AI视频生成的清晰度瓶颈。ContextGen框架的诞生,延续了这种瞄准核心难题、攻坚底层技术的创新路径。它将为游戏设计、广告创意、影视预演、个性化内容制作等领域提供强大的生产力工具,推动AIGC从“生成大致内容”迈向“生成精确可控内容”的新阶段。
目前,ContextGen的相关资源已全面开源:
研究团队还提供了一个用户友好的前端界面,用户可通过上传参考图像和自定义布局,亲身体验这一尖端技术带来的高度定制化图像生成能力。
文章来源:本文由大国AI导航(daguoai.com)基于浙江大学ReLER团队开源论文及发布资料,并结合人工智能多模态技术发展背景综合撰写。