Seedance 2.5 正式发布:30秒原生直出+50个全模态参考,国产AI视频模型再次捅破天花板

Ai资讯2小时前发布 大国Ai
21 0 0

摘要:2026年6月23日,火山引擎FORCE原动力大会上,字节跳动正式发布豆包视频生成模型Seedance 2.5,实现单段原生30秒视频直出、50个全模态参考素材联合输入、局部精细化编辑三项”全球第一”能力,预计7月初正式上线。同场发布的还有豆包大模型2.1 Pro、Seedream 5.0 Pro图像模型、Seed-Audio 1.0音频模型,标志着豆包生态从”语言模型”向”多模态内容工厂”补完。截至今年6月,豆包大模型日均Token调用量已突破180万亿,火山引擎在中国公有云MaaS市场份额达49.5%,位居第一。


一、180万亿Token背后的产业质变

在2026火山引擎FORCE原动力大会上,火山引擎总裁谭待披露了一组令人瞩目的数据:截至今年6月,豆包大模型日均Token调用量已突破180万亿,较两年前发布时增长超1500倍,过去一年内增长超10倍。

在公有云大模型市场,火山引擎份额已提升至49.5%——这意味着中国企业每消耗两个MaaS相关Token,就有一个来自火山引擎。与此同时,”万亿Token俱乐部”成员已从去年12月的100家暴涨至200多家,半年内翻了一倍。

Seedance 2.5 正式发布:30秒原生直出+50个全模态参考,国产AI视频模型再次捅破天花板

这些数字背后,是越来越多企业将AI融入核心业务流程的真实写照。Token正在逐渐成为像水电一样的基础消耗,而不再只是一个”试试看”的新工具。火山引擎升级了AI云原生全栈服务,在MaaS层发布了方舟CLI,在Agent开发与运营层升级了企业级Agent基础设施AgentKit、AI云基础设施,发布ArkClaw企业版与HiAgent 3.0。

二、豆包2.1 Pro:跨越”生产级质变点”

大会真正的主角,是突破”生产质变点”的豆包大模型2.1 Pro。谭待抛出了一个务实的衡量标准:”只有当模型能力跨越’质变点’,才能真正满足企业与个人在生产场景中的使用需求。”

Coding能力上,在Terminal Bench(最贴近真实研发环境的终端编程评测)上,2.1 Pro与Claude Opus 4.7基本持平,进入全球第一梯队;覆盖五大学科科研问题的SciCode拿到59.8分,超过Opus 4.7;从需求文档出发从零生成整个可运行仓库的仓库级评测NL2Repo-Bench,拿到47分。

硬核案例:现场演示让2.1 Pro围绕一个16×16 PE的微型模型,连续跑18个小时、迭代九轮,最终写出六个核心模块、1300多行RTL代码——芯片设计里最严谨的环节,通常要3到5名资深工程师干上数周。而且不只是生成代码,还跑通了仿真测试、综合检测,最后通过了手写数字识别验证。

Agent能力上,在OpenAI那套覆盖九大行业44种职业的GDPval真实经济价值评测里,2.1 Pro拿了国内第一;评测AI用真实MCP server和工具能力的MCP Atlas上,全面超过Opus 4.7。

价格策略同样是一记重拳:百万Token输入6元、输出30元,缓存命中只要1.2元,对比Claude同系列成本降了接近80%。另有个价格只要Pro一半的Turbo版本。

目前,豆包2.1模型已在火山引擎开放API服务,并陆续接入TRAE、扣子等产品。已有ezona、WPS、沐瞳、OPPO、美的等头部企业完成测试并落地,覆盖代码生成、智能体应用等场景。

三、Seedance 2.5:AI视频终于告别”15秒魔咒”

今年2月发布的Seedance 2.0,是中国第一个全球SOTA、也是第一个跨过”生产质变点”的视频生成模型。在它出来之前视频模型更像玩具,5到10秒的UGC内容为主;2.0之后,15到30秒的广告、影视、科普短片被全面解锁。

这次大会先给2.0上了个大升级:原生4K。以旗袍广告为例,720P下刺绣线迹和面料肌理不够清楚;用超分把720P拉到4K,画面虽然锐化了,但细密绣线反而被平滑掉,质感更差;而原生4K从生成阶段就保留更高密度的有效信息,发丝、丝线走向、面料纹理都清晰完整。Seedance 2.0原生4K还率先支持4K 10bit高位深,色彩层次更丰富,给后期调色留足空间。

万众期待之下,Seedance 2.5登场,目前已在内测尾声,预计7月初正式上线。三个升级全是”全球第一/最多”:

1. 单段30秒原生视频直出——全球第一

市面上同类模型最多只支持15到20秒,Seedance 2.5直接突破瓶颈,实现单次原生直出30秒完整视频。其核心是时空联合扩散模型的长时序优化——在帧间时序注意力机制中引入了长程记忆模块,让模型在生成第N帧时,不仅关联邻近数帧,还能锚定开篇的人物、场景、光照核心特征,保证30秒内从起势到收尾,角色形象、材质质感、环境光影、运镜逻辑由同一套推理链路完整输出,无拼接痕迹。

30秒的时间已经接近短剧、广告、产品演示、教程视频里的一个标准单镜头或完整小段落。过去很多AI视频模型只能生成几秒钟”片段感”的素材,创作者还需要大量拼接、补帧、重剪、修瑕。到了30秒,模型开始承担一段情节的起承转合,承担一个镜头内部的动作推进,承担音效、节奏、人物和场景的持续稳定——这就是从”生成画面”到”管理时间”的变化。

2. 50个全模态参考素材联合输入——全球最多

参考素材上限从此前的12份跃升至最多50个全模态(涵盖图片、视频片段、音频、文本等)。现场一次性输入十多位演员的图像资产,让模型自己编排。这对系列化内容尤其关键:短剧需要角色一致,广告需要产品一致,IP衍生需要世界观一致,电商视频需要商品细节一致。

创作者真正害怕的不是生成失败一次,而是每次都要重新解释一遍”这个人是谁、这个东西长什么样、这个品牌是什么气质”。全模态参考扩容,本质上是在降低重复沟通成本。

3. 精细化局部编辑——告别”抽卡时代”

新增了强大的视频编辑能力,支持在不改变原视频整体构图、机位和灯光的前提下,仅替换画面主体(如换模特、换商品)或调整局部细节。结合新增的3D白模预览功能,大幅降低了试错与后期修改成本。

现场一个口红广告演示,直接把”挑口红”这个困惑给解决了。它还能稳定承接专业创作——现场输入一个接近10万面的宇宙飞船白膜加一份渲染材质参考,让模型生成渲染视频模拟镜头,飞船主体轮廓、比例、复杂结构在镜头缓慢推进中都稳定保持。

AI视频早期最大的问题,是用户只有生成权,没有修改权。一条视频生成出来,如果80%满意、20%不满意,过去往往只能重新抽。重新抽意味着满意的80%也可能一起丢掉。对专业生产来说这是致命的,因为创作不是一次命中,而是连续修改。Seedance 2.5把视频延长、视频编辑、多模态参考放进任务类型里,意味着它不再只把自己定义为”生成器”,而是开始向”创作平台”靠近。

四、Seedream 5.0 Pro + Seed-Audio 1.0:补齐多模态拼图

视频之外,图像和音频这两块也各自上了新东西。

图像方面,接棒的是Seedream 5.0 Pro。最直观的是交互式精准编辑——创作者既能用语言描述空间关系,也能直接在画面上标记圈选。模型能识别箭头和高亮块,理解意图、定位元素、生成符合要求的画面。设计师随手画的草图线稿,它也能编辑成符合意图的视觉效果。

另一个能力是多图层分离——圈选点选任意区域、任意颗粒度,小到一行字、大到整个版面,都能拆分输出成独立图层。把人物从画面拿走后,模型会自动智能填充背景;还能递归拆分,对拆出去的人物再拆出帽子、滑板,方便二次拖拽缩放编辑。

还有个一直让大模型头疼的能力,高密度信息呈现——复杂图表、多层结构、甚至一整页PPT的信息量,都可能被完整塞进一张图,模型还会自动优化版面、保持审美。它还支持英语、西班牙语、阿拉伯语、日语、韩语等10余种主要语言,并自动适应每种语言的排版习惯。

Seedream配Seedance还能一加一大于二。以”天问一号发射”科普视频为例,先用5.0 Pro把探测器外观、发射、着陆几个关键阶段准确生成,再喂给Seedance 2.5,就得到一个高品质的30秒科普视频。

音频方面,Seed-Audio 1.0支持情绪、口音、背景音、氛围音、拟音特效一次直出,做到影视级成品音效——一条Prompt同步编排对白、情绪、方言、配乐与拟音特效。落到产业侧,奔驰、东风都在基于豆包大模型探索智能座舱的语音交互。奔驰中国研发负责人在现场视频里提到,已经把豆包大模型集成进新款纯电车型,让车里的对话更自然、更能读懂用户意图和情绪。

五、AI版权商用平台:经典IP合法二创

大会同步预览字节全新AI版权商业化平台,周星驰成为平台首批合作对象。依托该版权平台与Seedance视频生成能力,用户可在抖音、即梦、剪映及所有接入Seedance的工具平台中,使用官方授权模板对周星驰经典电影桥段开展二次创作。

《喜剧之王》《食神》《长江七号》等经典影视IP已接入平台,创作者可在剪映、豆包等工具中合法合规地进行AI二次创作,实现了经典IP存量价值的盘活。谭待公布,目前相关系列模板及当日创作量已突破十万次。

六、从”抽卡工具”到”生产系统”:AI视频的下一轮竞赛

Seedance 2.5并非孤立更新,而是字节跳动全模态工具链与商业化生态升级的重要一环——同场发布的豆包语言模型Seed 2.1(含Pro与Turbo版)、图像生成模型Seedream 5.0以及音频生成模型Seed-Audio 1.0,彻底打通了从文案编写、图像设计到视频生成、音频制作的完整内容生产链路。

在AI漫剧从业者北窗看来,一条视频生成时长从”15秒”到”30秒”,所需要的镜头调度、画面叙事能力,不止是”15秒×2″那么简单,”从制作层面上说,这是一个巨大的变革”。

据统计,目前全球主流的AI生成模型约60家,中国厂商占半数。若按日均算力消耗占比测算,Seedance已占超80%的市场份额,可灵约占14%,万相2.7约占4%。谭待透露,Seedance系列模型有近一半的调用量来自海外市场,包括大型跨国公司在内的众多海外企业以及创作者均在使用该模型。

谭待透露了一个标志性数据:Seedance 2.0落地后,工作日负载与使用次数反超周末,意味着Seedance从”UGC娱乐工具”进入”办公生产场景”,成为生产力的一部分。AI视频生成模型下一轮的竞赛,将是如何把算力变成生产力,实现模型正向现金流的商业闭环。

在实体产业,Seedance 2.5的应用场景正在扩展

  • 制造业/零售业:自动生成多语言产品视频说明书
  • 具身智能:合成多场景多视角的高质量训练数据
  • 自动驾驶:合成极端天气、罕见路况这类案例补上训练盲区

当视频模型跨过生产质变点,它积累的对物理世界的理解,正在成为世界模型的重要基础。谭待表示:”视频生成是通往世界模型的路径之一,在实体产业中有巨大的应用潜力。”

七、字节跳动:聚焦AI,长期投入

字节跳动CEO梁汝波在会上强调,攀登AI高峰是字节跳动当下最重要的事,火山引擎MaaS业务正在变成字节跳动的基础业务,投入将长期且坚定。字节内部也已大规模落地AI Coding生产流程。

火山引擎正是这个方向的对外出口。它把字节内部沉淀的模型能力、工程体系和应用经验,转化为云服务、模型API、行业解决方案和工具链,交付给企业使用。高峰还在前方,但路径已经清晰。


文章来源:本文综合自2026火山引擎FORCE原动力大会现场报道、火山引擎官方资料及APPSO报道,部分信息参考证券时报、腾讯新闻、新浪科技等媒体公开报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...