Hugging Face与Cerebras联手,将Gemma 4引入实时语音AI
3 小时前 2 阅读来源:HuggingFace Blog
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
Hugging Face与Cerebras近日联合发布了一项实时语音AI演示,将谷歌DeepMind的Gemma 4视觉语言模型与Cerebras的极速推理芯片结合,实现了几乎无延迟的语音对话体验。这一合作旨在解决当前语音AI系统中响应时间过长、对话不自然的核心痛点,为跨境电商卖家在客户服务、虚拟助手等场景中提供了更接近真人交互的技术可能。
该演示构建了一个完全开源的模块化语音到语音(speech-to-speech)处理流水线:用户语音输入后,由Nvidia的Parakeet模型进行语音识别,接着Gemma 4 31B模型在Cerebras芯片上完成推理,最后通过阿里巴巴的Qwen3TTS模型将文本转为语音输出。整个流程中,每个模块都可被开发者独立替换或优化。Cerebras的推理速度优势尤为关键——传统系统在P95(95%分位)延迟上常出现数秒的卡顿,尤其在多轮对话或调用工具时更为明显,而Cerebras通过稳定且极快的推理能力消除了这一瓶颈。目前,这套流水线已实际应用于超过9000台Reachy Mini机器人中,证明了其在真实世界交互中的可靠性。
对于中国跨境电商卖家而言,这一技术的落地意味着语音客服、智能导购等场景的体验将大幅提升。以往用户等待AI回复时的“机械感”和延迟,往往导致转化率下降或客户流失,而实时语音AI能让对话像真人交流一样流畅。同时,开源架构降低了定制门槛——卖家可以基于自身产品库、FAQ或促销策略,替换其中的语音识别或语言模型组件,无需从零开发。此外,Cerebras的推理效率也意味着更低的算力成本,对于需要处理大量并发语音请求的电商平台来说,这直接关系到运营成本的优化。随着语音交互在海外市场(尤其是欧美)的普及,能够提供“无感”语音服务的中国出海企业,将在用户体验上建立显著竞争优势。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
