通义百聆语音双子星同步开源：3秒克隆声音，嘈杂环境识别率达93%

2025年12月15日，阿里巴巴通义大模型团队宣布，其语音技术产品“通义百聆语音双子星”完成重大升级并正式开源。此次发布的核心是语音合成模型Fun-CosyVoice3与语音识别模型Fun-ASR系列，旨在为开发者和企业提供更强大的本地化语音AI工具，推动语音技术从“会说话”到“听得懂”的全面革新。

一、Fun-CosyVoice3：新一代多语言语音合成引擎

Fun-CosyVoice3作为文本到语音合成（TTS）模型，实现了多项关键性能突破，显著提升了语音合成的实时性、准确性和表现力。

核心升级亮点：

极速响应与高保真克隆：模型首包延迟降低50%，支持双向流式合成，真正实现“输入即发声”，适用于语音助手、直播配音等实时场景。其核心能力在于仅需3秒左右的参考音频，即可完成高保真的音色克隆。
跨语言与情感控制：模型支持9种通用语言（如中、英、日）和18种中文方言的自由切换，并具备跨语种音色复刻能力。这意味着用户用一段普通话录音，即可生成音色高度一致的粤语、日语或英语语音。此外，模型还支持开心、愤怒等多种情感控制，使合成语音更具表现力。
复杂场景精准处理：针对中英文混合语句，模型的词错误率（WER）相比之前大幅降低56.4%，能够精准、自然地处理专业术语、大小写混排及语码转换。在复杂场景下的字符错误率（CER）也相对降低26%，接近人类录音水平。

开源与落地：除了核心模型升级，团队同步开源了Fun-CosyVoice3-0.5B版本。该版本参数量为0.5B，提供了完整的zero-shot音色克隆能力，支持本地部署与二次开发，为希望将语音能力集成到自身系统的开发者降低了门槛。

二、Fun-ASR系列：高鲁棒性语音识别模型

如果说CosyVoice3解决了“怎么说”的问题，那么Fun-ASR则致力于让AI“听得懂”，尤其在复杂真实环境中。

核心能力增强：

强悍的抗噪能力：基于数千万小时真实语音数据训练，Fun-ASR在会议室、地铁、车载等高噪声环境下的识别准确率可达93%，有效解决了嘈杂环境下“听不清”的痛点。
广泛的语言覆盖：模型支持31种语言的自由混说识别，无需预先指定语种，系统可自动切换。在中文场景下，覆盖粤语、吴语、闽南语等7大方言及26种地方口音，从东北话到四川话都能精准识别。
特殊场景与实时性突破：新增对歌词与说唱的识别能力，优化了在音乐背景干扰下的语音提取。同时，流式识别首字延迟降至160ms，极大提升了会议记录、实时字幕等场景的体验。
企业级定制能力：通过引入RAG（检索增强生成）机制，Fun-ASR将可定制的热词上限从1000条提升至10000条，且不牺牲通用识别准确率，能满足金融、医疗等行业对专业术语的高精度识别需求。

轻量化选择：针对算力有限的场景，团队开源了轻量化版本Fun-ASR-Nano，参数量压缩至0.8B，推理成本更低，同时支持本地部署与定制化微调，适配边缘设备与移动端应用。

三、开源价值与应用前景

此次“语音双子星”的同步开源，不仅展示了阿里巴巴在语音AI领域的技术实力，更体现了其推动技术落地的开放理念。

完整的开源生态：模型在魔搭ModelScope、HuggingFace及GitHub等平台同步开源，提供了推理示例、部署代码及微调支持，使开发者能够在本地或私有云环境中灵活部署，更好地保障数据隐私与安全。
丰富的应用场景：两大模型的能力组合，可广泛应用于智能语音助手、实时播报、多语言客服、会议自动纪要、无障碍阅读、直播字幕生成以及个性化内容创作（如配音、有声书）等多个领域。

通义百聆此次升级，通过降低音色克隆门槛、攻克嘈杂环境识别难题、支持多语言方言，正将前沿的语音AI能力转化为可被广大开发者和企业直接使用的生产力工具。

文章来源：综合自阿里云开发者社区、聚大模型前言、品玩等媒体报道。

文章版权归作者所有，未经允许请勿转载。

Claude Code 2.1.0重磅发布：Agent能力全面进化，开发者体验与安全性双重升级

通义百聆语音双子星同步开源：3秒克隆声音，嘈杂环境识别率达93%

一、Fun-CosyVoice3：新一代多语言语音合成引擎

二、Fun-ASR系列：高鲁棒性语音识别模型

三、开源价值与应用前景

FinArena实测揭示：大模型在A股市场已具备理性决策潜力，但稳健性分化明显

蚂蚁“阿福”月活破1500万跻身行业前五，AI健康应用成新增长极

相关文章

Claude Code 2.1.0重磅发布：Agent能力全面进化，开发者体验与安全性双重升级

从“红色警报”到“专家级助手”：GPT-5.2的全面解析与行业冲击

谷歌全面发力XR生态：Android XR系统更新与AI眼镜SDK发布，定义下一代人机交互

Google生成式UI革命：Dynamic View与Visual Layout如何重塑AI交互未来

暂无评论

最新文章

通义百聆语音双子星同步开源：3秒克隆声音，嘈杂环境识别率达93%

一、Fun-CosyVoice3：新一代多语言语音合成引擎

二、Fun-ASR系列：高鲁棒性语音识别模型

三、开源价值与应用前景

FinArena实测揭示：大模型在A股市场已具备理性决策潜力，但稳健性分化明显

蚂蚁“阿福”月活破1500万跻身行业前五，AI健康应用成新增长极

相关文章

Claude Code 2.1.0重磅发布：Agent能力全面进化，开发者体验与安全性双重升级

从“红色警报”到“专家级助手”：GPT-5.2的全面解析与行业冲击

谷歌全面发力XR生态：Android XR系统更新与AI眼镜SDK发布，定义下一代人机交互

Google生成式UI革命：Dynamic View与Visual Layout如何重塑AI交互未来

暂无评论

最新文章

标签云