摘要: 2026年1月,FlashLabs公司正式发布了全球首个开源、端到端、实时的语音到语音(Speech-to-Speech)AI模型——Chroma 1.0。该模型彻底摒弃了传统的“语音识别(ASR)→大语言模型(LLM)→语音合成(TTS)”级联流程,实现了从输入语音直接生成输出语音的统一建模。其核心突破在于,仅需几秒钟的参考音频即可完成高保真度的个性化声音克隆,同时将首字节延迟(TTFT)降至150毫秒以下,为AI语音客服、虚拟人、实时翻译等场景提供了强大的开源基础。
传统的语音交互系统如同一个精密的传话游戏:用户的语音先被转写成文字,交由AI大脑理解并生成文本回复,最后再将文本转换为语音输出。这个过程不仅延迟高、容易出错,更重要的是,说话人独特的音色、语调和情感等“副语言信息”在转写过程中丢失殆尽,导致回复冰冷而缺乏个性。
Chroma 1.0的诞生,标志着这一范式被彻底颠覆。它被定位为OpenAI Realtime API的开源替代方案,其设计目标直指“实时性”这一核心体验瓶颈。模型采用原生端到端的语音到语音架构,将理解、推理与生成过程深度集成在一个闭环系统中,直接在音频Token维度进行推理,从而在延迟、自然度与一致性上实现了突破性提升。
为实现低延迟与高保真克隆的双重目标,Chroma并未采用单一的巨型Transformer,而是设计了一套分工明确、协同工作的分层多模块架构,宛如一个高效的智能配音工作室。
根据论文(arXiv:2601.11141)公布的实验结果,Chroma 1.0在多项关键指标上表现卓越,在开源与闭源模型中均处于领先地位。
Chroma 1.0并非停留在实验室的论文模型,其首要落地场景是FlashLabs自家的FlashAI语音智能体平台。它的开源发布,为以下广泛领域提供了可私有化部署的高性能解决方案:
FlashLabs秉承开放精神,在发布当日即全面公开了Chroma 1.0的模型权重、推理代码及相关论文,旨在推动整个实时语音AI社区的发展。
结语 Chroma 1.0的发布,不仅是技术上的重要突破,更是开源社区在实时语音AI领域迈向成熟的关键一步。它证明了在严格的开源协议下,同样能够诞生出媲美顶级闭源产品的核心技术,为全球开发者和企业解锁了语音交互的无限可能,加速了“语音作为核心人机接口”时代的到来。
文章来源:本文由大国AI导航(daguoai.com)综合编译,参考信息源自FlashLabs官方发布、阿里云开发者社区、相关技术论文及行业媒体报道。