通义百聆语音双子星同步开源:3秒克隆声音,嘈杂环境识别率达93%

Ai资讯2周前发布 大国Ai
183 0 0

2025年12月15日,阿里巴巴通义大模型团队宣布,其语音技术产品“通义百聆语音双子星”完成重大升级并正式开源。此次发布的核心是语音合成模型Fun-CosyVoice3与语音识别模型Fun-ASR系列,旨在为开发者和企业提供更强大的本地化语音AI工具,推动语音技术从“会说话”到“听得懂”的全面革新。

通义百聆语音双子星同步开源:3秒克隆声音,嘈杂环境识别率达93%

一、Fun-CosyVoice3:新一代多语言语音合成引擎

Fun-CosyVoice3作为文本到语音合成(TTS)模型,实现了多项关键性能突破,显著提升了语音合成的实时性、准确性和表现力。

核心升级亮点:

  1. 极速响应与高保真克隆:模型首包延迟降低50%,支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音等实时场景。其核心能力在于仅需3秒左右的参考音频,即可完成高保真的音色克隆。
  2. 跨语言与情感控制:模型支持9种通用语言(如中、英、日)和18种中文方言的自由切换,并具备跨语种音色复刻能力。这意味着用户用一段普通话录音,即可生成音色高度一致的粤语、日语或英语语音。此外,模型还支持开心、愤怒等多种情感控制,使合成语音更具表现力。
  3. 复杂场景精准处理:针对中英文混合语句,模型的词错误率(WER)相比之前大幅降低56.4%,能够精准、自然地处理专业术语、大小写混排及语码转换。在复杂场景下的字符错误率(CER)也相对降低26%,接近人类录音水平。

开源与落地:除了核心模型升级,团队同步开源了Fun-CosyVoice3-0.5B版本。该版本参数量为0.5B,提供了完整的zero-shot音色克隆能力,支持本地部署与二次开发,为希望将语音能力集成到自身系统的开发者降低了门槛。

二、Fun-ASR系列:高鲁棒性语音识别模型

如果说CosyVoice3解决了“怎么说”的问题,那么Fun-ASR则致力于让AI“听得懂”,尤其在复杂真实环境中。

核心能力增强:

  1. 强悍的抗噪能力:基于数千万小时真实语音数据训练,Fun-ASR在会议室、地铁、车载等高噪声环境下的识别准确率可达93%,有效解决了嘈杂环境下“听不清”的痛点。
  2. 广泛的语言覆盖:模型支持31种语言的自由混说识别,无需预先指定语种,系统可自动切换。在中文场景下,覆盖粤语、吴语、闽南语等7大方言及26种地方口音,从东北话到四川话都能精准识别。
  3. 特殊场景与实时性突破:新增对歌词与说唱的识别能力,优化了在音乐背景干扰下的语音提取。同时,流式识别首字延迟降至160ms,极大提升了会议记录、实时字幕等场景的体验。
  4. 企业级定制能力:通过引入RAG(检索增强生成)机制,Fun-ASR将可定制的热词上限从1000条提升至10000条,且不牺牲通用识别准确率,能满足金融、医疗等行业对专业术语的高精度识别需求。

轻量化选择:针对算力有限的场景,团队开源了轻量化版本Fun-ASR-Nano,参数量压缩至0.8B,推理成本更低,同时支持本地部署与定制化微调,适配边缘设备与移动端应用。

三、开源价值与应用前景

此次“语音双子星”的同步开源,不仅展示了阿里巴巴在语音AI领域的技术实力,更体现了其推动技术落地的开放理念。

  • 完整的开源生态:模型在魔搭ModelScope、HuggingFace及GitHub等平台同步开源,提供了推理示例、部署代码及微调支持,使开发者能够在本地或私有云环境中灵活部署,更好地保障数据隐私与安全。
  • 丰富的应用场景:两大模型的能力组合,可广泛应用于智能语音助手、实时播报、多语言客服、会议自动纪要、无障碍阅读、直播字幕生成以及个性化内容创作(如配音、有声书)等多个领域。

通义百聆此次升级,通过降低音色克隆门槛、攻克嘈杂环境识别难题、支持多语言方言,正将前沿的语音AI能力转化为可被广大开发者和企业直接使用的生产力工具。


文章来源:综合自阿里云开发者社区、聚大模型前言、品玩等媒体报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...