Seedance 2.5 正式发布：30秒原生直出+50个全模态参考，国产AI视频模型再次捅破天花板

摘要：2026年6月23日，火山引擎FORCE原动力大会上，字节跳动正式发布豆包视频生成模型Seedance 2.5，实现单段原生30秒视频直出、50个全模态参考素材联合输入、局部精细化编辑三项”全球第一”能力，预计7月初正式上线。同场发布的还有豆包大模型2.1 Pro、Seedream 5.0 Pro图像模型、Seed-Audio 1.0音频模型，标志着豆包生态从”语言模型”向”多模态内容工厂”补完。截至今年6月，豆包大模型日均Token调用量已突破180万亿，火山引擎在中国公有云MaaS市场份额达49.5%，位居第一。

一、180万亿Token背后的产业质变

在2026火山引擎FORCE原动力大会上，火山引擎总裁谭待披露了一组令人瞩目的数据：截至今年6月，豆包大模型日均Token调用量已突破180万亿，较两年前发布时增长超1500倍，过去一年内增长超10倍。

在公有云大模型市场，火山引擎份额已提升至49.5%——这意味着中国企业每消耗两个MaaS相关Token，就有一个来自火山引擎。与此同时，”万亿Token俱乐部”成员已从去年12月的100家暴涨至200多家，半年内翻了一倍。

Seedance 2.5 正式发布：30秒原生直出+50个全模态参考，国产AI视频模型再次捅破天花板

这些数字背后，是越来越多企业将AI融入核心业务流程的真实写照。Token正在逐渐成为像水电一样的基础消耗，而不再只是一个”试试看”的新工具。火山引擎升级了AI云原生全栈服务，在MaaS层发布了方舟CLI，在Agent开发与运营层升级了企业级Agent基础设施AgentKit、AI云基础设施，发布ArkClaw企业版与HiAgent 3.0。

二、豆包2.1 Pro：跨越”生产级质变点”

大会真正的主角，是突破”生产质变点”的豆包大模型2.1 Pro。谭待抛出了一个务实的衡量标准：”只有当模型能力跨越’质变点’，才能真正满足企业与个人在生产场景中的使用需求。”

Coding能力上，在Terminal Bench（最贴近真实研发环境的终端编程评测）上，2.1 Pro与Claude Opus 4.7基本持平，进入全球第一梯队；覆盖五大学科科研问题的SciCode拿到59.8分，超过Opus 4.7；从需求文档出发从零生成整个可运行仓库的仓库级评测NL2Repo-Bench，拿到47分。

硬核案例：现场演示让2.1 Pro围绕一个16×16 PE的微型模型，连续跑18个小时、迭代九轮，最终写出六个核心模块、1300多行RTL代码——芯片设计里最严谨的环节，通常要3到5名资深工程师干上数周。而且不只是生成代码，还跑通了仿真测试、综合检测，最后通过了手写数字识别验证。

Agent能力上，在OpenAI那套覆盖九大行业44种职业的GDPval真实经济价值评测里，2.1 Pro拿了国内第一；评测AI用真实MCP server和工具能力的MCP Atlas上，全面超过Opus 4.7。

价格策略同样是一记重拳：百万Token输入6元、输出30元，缓存命中只要1.2元，对比Claude同系列成本降了接近80%。另有个价格只要Pro一半的Turbo版本。

目前，豆包2.1模型已在火山引擎开放API服务，并陆续接入TRAE、扣子等产品。已有ezona、WPS、沐瞳、OPPO、美的等头部企业完成测试并落地，覆盖代码生成、智能体应用等场景。

三、Seedance 2.5：AI视频终于告别”15秒魔咒”

今年2月发布的Seedance 2.0，是中国第一个全球SOTA、也是第一个跨过”生产质变点”的视频生成模型。在它出来之前视频模型更像玩具，5到10秒的UGC内容为主；2.0之后，15到30秒的广告、影视、科普短片被全面解锁。

这次大会先给2.0上了个大升级：原生4K。以旗袍广告为例，720P下刺绣线迹和面料肌理不够清楚；用超分把720P拉到4K，画面虽然锐化了，但细密绣线反而被平滑掉，质感更差；而原生4K从生成阶段就保留更高密度的有效信息，发丝、丝线走向、面料纹理都清晰完整。Seedance 2.0原生4K还率先支持4K 10bit高位深，色彩层次更丰富，给后期调色留足空间。

万众期待之下，Seedance 2.5登场，目前已在内测尾声，预计7月初正式上线。三个升级全是”全球第一/最多”：

1. 单段30秒原生视频直出——全球第一

市面上同类模型最多只支持15到20秒，Seedance 2.5直接突破瓶颈，实现单次原生直出30秒完整视频。其核心是时空联合扩散模型的长时序优化——在帧间时序注意力机制中引入了长程记忆模块，让模型在生成第N帧时，不仅关联邻近数帧，还能锚定开篇的人物、场景、光照核心特征，保证30秒内从起势到收尾，角色形象、材质质感、环境光影、运镜逻辑由同一套推理链路完整输出，无拼接痕迹。

30秒的时间已经接近短剧、广告、产品演示、教程视频里的一个标准单镜头或完整小段落。过去很多AI视频模型只能生成几秒钟”片段感”的素材，创作者还需要大量拼接、补帧、重剪、修瑕。到了30秒，模型开始承担一段情节的起承转合，承担一个镜头内部的动作推进，承担音效、节奏、人物和场景的持续稳定——这就是从”生成画面”到”管理时间”的变化。

2. 50个全模态参考素材联合输入——全球最多

参考素材上限从此前的12份跃升至最多50个全模态（涵盖图片、视频片段、音频、文本等）。现场一次性输入十多位演员的图像资产，让模型自己编排。这对系列化内容尤其关键：短剧需要角色一致，广告需要产品一致，IP衍生需要世界观一致，电商视频需要商品细节一致。

创作者真正害怕的不是生成失败一次，而是每次都要重新解释一遍”这个人是谁、这个东西长什么样、这个品牌是什么气质”。全模态参考扩容，本质上是在降低重复沟通成本。

3. 精细化局部编辑——告别”抽卡时代”

新增了强大的视频编辑能力，支持在不改变原视频整体构图、机位和灯光的前提下，仅替换画面主体（如换模特、换商品）或调整局部细节。结合新增的3D白模预览功能，大幅降低了试错与后期修改成本。

现场一个口红广告演示，直接把”挑口红”这个困惑给解决了。它还能稳定承接专业创作——现场输入一个接近10万面的宇宙飞船白膜加一份渲染材质参考，让模型生成渲染视频模拟镜头，飞船主体轮廓、比例、复杂结构在镜头缓慢推进中都稳定保持。

AI视频早期最大的问题，是用户只有生成权，没有修改权。一条视频生成出来，如果80%满意、20%不满意，过去往往只能重新抽。重新抽意味着满意的80%也可能一起丢掉。对专业生产来说这是致命的，因为创作不是一次命中，而是连续修改。Seedance 2.5把视频延长、视频编辑、多模态参考放进任务类型里，意味着它不再只把自己定义为”生成器”，而是开始向”创作平台”靠近。

四、Seedream 5.0 Pro + Seed-Audio 1.0：补齐多模态拼图

视频之外，图像和音频这两块也各自上了新东西。

图像方面，接棒的是Seedream 5.0 Pro。最直观的是交互式精准编辑——创作者既能用语言描述空间关系，也能直接在画面上标记圈选。模型能识别箭头和高亮块，理解意图、定位元素、生成符合要求的画面。设计师随手画的草图线稿，它也能编辑成符合意图的视觉效果。

另一个能力是多图层分离——圈选点选任意区域、任意颗粒度，小到一行字、大到整个版面，都能拆分输出成独立图层。把人物从画面拿走后，模型会自动智能填充背景；还能递归拆分，对拆出去的人物再拆出帽子、滑板，方便二次拖拽缩放编辑。

还有个一直让大模型头疼的能力，高密度信息呈现——复杂图表、多层结构、甚至一整页PPT的信息量，都可能被完整塞进一张图，模型还会自动优化版面、保持审美。它还支持英语、西班牙语、阿拉伯语、日语、韩语等10余种主要语言，并自动适应每种语言的排版习惯。

Seedream配Seedance还能一加一大于二。以”天问一号发射”科普视频为例，先用5.0 Pro把探测器外观、发射、着陆几个关键阶段准确生成，再喂给Seedance 2.5，就得到一个高品质的30秒科普视频。

音频方面，Seed-Audio 1.0支持情绪、口音、背景音、氛围音、拟音特效一次直出，做到影视级成品音效——一条Prompt同步编排对白、情绪、方言、配乐与拟音特效。落到产业侧，奔驰、东风都在基于豆包大模型探索智能座舱的语音交互。奔驰中国研发负责人在现场视频里提到，已经把豆包大模型集成进新款纯电车型，让车里的对话更自然、更能读懂用户意图和情绪。

五、AI版权商用平台：经典IP合法二创

大会同步预览字节全新AI版权商业化平台，周星驰成为平台首批合作对象。依托该版权平台与Seedance视频生成能力，用户可在抖音、即梦、剪映及所有接入Seedance的工具平台中，使用官方授权模板对周星驰经典电影桥段开展二次创作。

《喜剧之王》《食神》《长江七号》等经典影视IP已接入平台，创作者可在剪映、豆包等工具中合法合规地进行AI二次创作，实现了经典IP存量价值的盘活。谭待公布，目前相关系列模板及当日创作量已突破十万次。

六、从”抽卡工具”到”生产系统”：AI视频的下一轮竞赛

Seedance 2.5并非孤立更新，而是字节跳动全模态工具链与商业化生态升级的重要一环——同场发布的豆包语言模型Seed 2.1（含Pro与Turbo版）、图像生成模型Seedream 5.0以及音频生成模型Seed-Audio 1.0，彻底打通了从文案编写、图像设计到视频生成、音频制作的完整内容生产链路。

在AI漫剧从业者北窗看来，一条视频生成时长从”15秒”到”30秒”，所需要的镜头调度、画面叙事能力，不止是”15秒×2″那么简单，”从制作层面上说，这是一个巨大的变革”。

据统计，目前全球主流的AI生成模型约60家，中国厂商占半数。若按日均算力消耗占比测算，Seedance已占超80%的市场份额，可灵约占14%，万相2.7约占4%。谭待透露，Seedance系列模型有近一半的调用量来自海外市场，包括大型跨国公司在内的众多海外企业以及创作者均在使用该模型。

谭待透露了一个标志性数据：Seedance 2.0落地后，工作日负载与使用次数反超周末，意味着Seedance从”UGC娱乐工具”进入”办公生产场景”，成为生产力的一部分。AI视频生成模型下一轮的竞赛，将是如何把算力变成生产力，实现模型正向现金流的商业闭环。

在实体产业，Seedance 2.5的应用场景正在扩展：

制造业/零售业：自动生成多语言产品视频说明书
具身智能：合成多场景多视角的高质量训练数据
自动驾驶：合成极端天气、罕见路况这类案例补上训练盲区

当视频模型跨过生产质变点，它积累的对物理世界的理解，正在成为世界模型的重要基础。谭待表示：”视频生成是通往世界模型的路径之一，在实体产业中有巨大的应用潜力。”

七、字节跳动：聚焦AI，长期投入

字节跳动CEO梁汝波在会上强调，攀登AI高峰是字节跳动当下最重要的事，火山引擎MaaS业务正在变成字节跳动的基础业务，投入将长期且坚定。字节内部也已大规模落地AI Coding生产流程。

火山引擎正是这个方向的对外出口。它把字节内部沉淀的模型能力、工程体系和应用经验，转化为云服务、模型API、行业解决方案和工具链，交付给企业使用。高峰还在前方，但路径已经清晰。

文章来源：本文综合自2026火山引擎FORCE原动力大会现场报道、火山引擎官方资料及APPSO报道，部分信息参考证券时报、腾讯新闻、新浪科技等媒体公开报道。

文章版权归作者所有，未经允许请勿转载。

重磅！GPT-5.5 Instant全员免费上线：幻觉暴降52%，回复更干脆，还学会看脸色了

Seedance 2.5 正式发布：30秒原生直出+50个全模态参考，国产AI视频模型再次捅破天花板

一、180万亿Token背后的产业质变

二、豆包2.1 Pro：跨越”生产级质变点”