【内容摘要】 当闭源的GPT Image 2凭借以假乱真的生图能力刷屏时,开源界迎来了强力反击。商汤最新开源的多模态模型SenseNova U1,以行业首创的“连续图文生成”能力交出惊艳答卷。它不仅能在一个模型内实现边写边画、逻辑严丝合缝,更在复杂的科普信息图、商业数据可视化生成上达到开源SOTA水平。基于首创的NEO-unify原生架构,SenseNova U1摒弃了传统视觉编码器的信息损耗,8B及A3B的轻量级参数让它成为目前最能打的开源多模态模型,支持本地部署与Agent调用,堪称创作者与开发者的新神器。
最近,GPT Image 2 凭借极其逼真的生图效果席卷了各大社交平台,AI在视觉生成领域的进化速度确实让人惊叹。但不可否认,GPT Image 2 目前依然是云端闭源且收费的天花板。
如果我们把目光转向开源赛道,想要找一个能部署在本地、免费且能力在线的替代方案,选谁最合适?最近商汤发布的 SenseNova U1,或许就是目前最优的解法。
作为商汤最新的原生理解生成统一模型,SenseNova U1 的 Lite 系列(8B 和 A3B 参数版本)已经在 Hugging Face 和 GitHub 上全面开源。经过一轮深度实测,我们发现它不仅是“开源界的GPT Image 2”,更走出了一条截然不同的技术路线。
做过内容的朋友一定有过这种痛点:让AI写篇文章,再让它配图,结果图是图、文是文,逻辑经常对不上。要想图文逻辑连贯,往往得靠不同工具和插件来回拼接。
SenseNova U1 最让人眼前一亮的特点,就是行业首创的连续图文生成输出。它不需要借助任何外部工具调用,单一模型就能在回复流里连贯地产出文字和图片,图跟着文字的逻辑走,说到哪步画到哪步。
比如我们测试了一个绘本场景:“创作一只棕色小熊经历四季变化的图文故事”。 模型不仅准确理解了故事脉络,而且每一段文字旁边都跟着对应的画面。更绝的是,它的人物一致性和文字渲染极其精准——春天的小熊在嫩绿林间,到了冬天,画面里的小熊不仅自然地穿上了毛衣戴上了帽子,画面细节也与上文描述的温度变化完美契合。
这种“时序性”的图文产出,在创意工作和教程生成上简直是杀手锏。比如让它推演一个废土风游戏角色“机械拾荒者”的设计过程,它会从整体视觉基调、核心交互细节,一路画到环境叙事,每一步推演都有配图佐证;又或者是教你怎么把一颗牛油果核种成盆栽,从切口、水培生根到移栽发芽,整个过程就像一本连贯的操作手册,图文绑定的逻辑严丝合缝。
对内容创作者、设计师而言,这种底层级别的图文统一,终于治好了“AI配图文不对题”的顽疾。
如果说连续图文是趣味性和实用性的结合,那信息图的生成,则是检验多模态模型硬核理解能力的试金石。
画一张好看的图不难,难的是把一大段复杂的文字或数据,压缩成一张逻辑清晰、一眼看懂的信息图。这要求模型不仅要会画,还要真正“读懂”内容,理清主次关系,并准确渲染文字。
我们直接用一句极简提示词:“用一张信息图解释一下 DeepSeek V4”。SenseNova U1 不仅抓取到了原生多模态、万亿参数、百万级上下文等核心技术点,还把它们排版成了逻辑清晰的架构图。
而在更具生活气息的场景里,它的表现同样老练。比如“一张电子烟3D拆解科普”,它能把雾化器、烟油仓、电池仓的位置和气流通道标得明明白白;输入“武汉三鲜豆皮制作流程”,它能输出一张步骤分明、配料清晰的美食攻略图;甚至连防晒霜的 SPF 和 PA 值对比选购指南,它也能用图表形式把枯燥的数据讲得一清二楚。
在办公和营销场景下,五页的会议纪要瞬间被压缩成一屏看懂的总结图,各渠道的销售数据变成了直观的可视化驾驶舱,甚至连品牌的视觉风格参考图也能一键生成。
客观来说,在极度复杂的排版下偶尔还会有个别文字渲染瑕疵,但作为开源模型,它的信息提炼和可视化能力已经足够让人惊喜,称一句开源SOTA毫不为过。
SenseNova U1 为什么能在图文连贯性和理解生成上表现得如此出众?答案藏在它的底层架构里。
过去的多模态模型,看图和画图是两套系统:一个视觉编码器(VE)负责压缩和理解输入,另一个生成器负责画画。两套系统就像两个人用蹩脚的翻译软件沟通,信息在传递中必然会有损耗。
而 SenseNova U1 采用了商汤首创的 NEO-unify 原生架构,直接把理解和生成合进了同一个表征空间。它扔掉了臃肿的传统视觉编码器,将近似无损的图像分块直接“喂”给主干网络,让文本和视觉在同一套体系里端到端统一训练。
这就好比让一个人同时学会了流利的听、说、读、写,不再需要中间商赚差价。这也解释了为什么 SenseNova U1 消耗的 token 更少、生成效率更高,即便参数量不大,也能打出极致的性价比。
此次开源的轻量版包含两个版本:
对于需要将图像能力嵌入产品、且对数据隐私有要求的开发者来说,这两个版本都可以本地部署、微调,数据完全不出域。
此外,商汤还同步开源了面向 Agent 运行时的 AIGC 技能库 SenseNova-Skills。你可以直接把 SenseNova U1 接入 OpenClaw、Hermes 等 Agent 平台,一键调用生成专业信息图,工作流无缝打通。
GPT Image 2 把图像的“生成质量”拔到了新高度,但如果开源模型只是跟在后面追赶画质,那开源的意义终究会被压缩成“便宜”二字。
SenseNova U1 给出了另一种解法:它不仅在追画质,更在探索多模态模型的下一步形态——理解与生成的原生统一。从实测来看,它确实做到了目前同量级开源模型的最强水平。如果你正在寻找一个能本地部署、能边写边画、能高效处理复杂信息的开源多模态模型,SenseNova U1 绝对值得立刻上手体验。
文章来源: 大国Ai导航(daguoai.com)综合整理,素材参考自APPSO及商汤官方技术博客 开源地址速览: