2025年12月1日,爱诗科技正式发布其AI视频生成平台PixVerse的重大更新版本——V5.5,国内版本同步更新为“拍我AI V5.5”。此次更新标志着AI视频生成技术从“镜头生成”迈向了具备“完整叙事能力”的实用新阶段。作为继Sora2发布后,国内首个实现“分镜+音频”一键直出的重大升级,V5.5让创作者无需从零拼接素材,即可在几秒钟内生成带有完整故事结构的短片,甚至达到接近“成片”的质量。
PixVerse V5.5最核心的进步在于底层模型的全面升级,首次实现了音频(Audio)与多镜头(Multi-shot)的同步生成,并强化了多角色音画同步能力。这意味着AI能够根据用户输入的提示词,自动理解并生成一个完整的故事段落,而不仅仅是提供单一镜头素材。
用户现在可以在提示词中直接控制“音效、台词、音色、音乐、镜头”等元素。AI能自动解析其中的叙事意图,并设计出包括推、拉、摇、移、切换、景别变化等在内的专业镜头语言,运镜节奏更贴近真实的影视制作逻辑。例如,即使用户仅输入“一只小熊在森林里讲笑话”这样简单的指令,AI也能自动生成包含景别变化、匹配笑声和搞笑情绪的完整视频片段。这种“导演思维”的注入,极大地降低了专业视频创作的门槛。
V5.5在生成效率和质量上实现了显著提升。在V5Fast模式下,平台能以全球领先的速度,约30秒生成1080p高清视频。对于更复杂的多镜头叙事视频,生成时间也控制在1分钟以内。这得益于爱诗科技在两年内完成五代模型、八个版本的快速技术迭代所积累的坚实基础。
在音画同步方面,V5.5实现了飞跃。它成为国内首个能在一次生成中同步完成“分镜+声音”的AI视频大模型。画面生成的同时,人物对白、口型、表情、动作、环境声和背景音乐被自动融合,呈现出自然协调的多角色互动,使生成的视频近乎“直出成片”,无需用户额外调参或上传音频。
V5.5的发布正在深刻改变短视频乃至更广泛内容的创作方式。过去,创作者需要依赖摄影师和剪辑师的配合才能完成的具有“黄金三秒开场节奏”的镜头,现在可由AI自动生成。其应用场景已覆盖漫剧、玩梗、MV、Vlog、复古影像、动画与二次元内容等多个领域。
此外,PixVerse平台正在构建一条从图像到视频的完整AI创作工作流。用户可以在平台上利用内置的Nano Banana Pro等图像模型生成高清图片,并一键转入视频制作流程。平台还提供了Swap(替换视频中的角色、场景)、Remix(基于他人创作的二次创作)和Modify(基于关键帧的精修编辑)三大视频编辑功能,为创作者提供了更自由、自然的后期体验。
PixVerse(拍我AI)已成为全球创作者使用AI视频生成的首选平台之一,用户规模已突破1亿。根据权威独立测评平台Artificial Analysis的测试,其前代V5模型在图生视频(Image to Video)项目中曾排名全球第一,展现了强大的技术实力。目前,该平台位列a16z“全球Top 50生成式AI消费移动应用”榜单第25位。
此次V5.5的推出,不仅是一次技术升级,更指向一个更普惠的视频创作未来。它让更多人能以“导演思维”进行视觉表达,将抽象灵感转化为可视成片的时间成本被大幅压缩。随着AI视频技术日益成为内容生产的基础设施,PixVerse V5.5正推动影像、广告、游戏、营销和社交娱乐等领域的创作方式发生根本性变革。
文章来源:综合自蚌埠新闻网、澎湃新闻、中国日报网等相关报道。