2025年12月15日,阿里巴巴通义大模型团队宣布,其语音技术产品“通义百聆语音双子星”完成重大升级并正式开源。此次发布的核心是语音合成模型Fun-CosyVoice3与语音识别模型Fun-ASR系列,旨在为开发者和企业提供更强大的本地化语音AI工具,推动语音技术从“会说话”到“听得懂”的全面革新。
Fun-CosyVoice3作为文本到语音合成(TTS)模型,实现了多项关键性能突破,显著提升了语音合成的实时性、准确性和表现力。
核心升级亮点:
开源与落地:除了核心模型升级,团队同步开源了Fun-CosyVoice3-0.5B版本。该版本参数量为0.5B,提供了完整的zero-shot音色克隆能力,支持本地部署与二次开发,为希望将语音能力集成到自身系统的开发者降低了门槛。
如果说CosyVoice3解决了“怎么说”的问题,那么Fun-ASR则致力于让AI“听得懂”,尤其在复杂真实环境中。
核心能力增强:
轻量化选择:针对算力有限的场景,团队开源了轻量化版本Fun-ASR-Nano,参数量压缩至0.8B,推理成本更低,同时支持本地部署与定制化微调,适配边缘设备与移动端应用。
此次“语音双子星”的同步开源,不仅展示了阿里巴巴在语音AI领域的技术实力,更体现了其推动技术落地的开放理念。
通义百聆此次升级,通过降低音色克隆门槛、攻克嘈杂环境识别难题、支持多语言方言,正将前沿的语音AI能力转化为可被广大开发者和企业直接使用的生产力工具。
文章来源:综合自阿里云开发者社区、聚大模型前言、品玩等媒体报道。