Hugging Face与Cerebras联手，将Gemma 4引入实时语音AI

Hugging Face与Cerebras近日联合发布了一项实时语音AI演示，将谷歌DeepMind的Gemma 4视觉语言模型与Cerebras的极速推理芯片结合，实现了几乎无延迟的语音对话体验。这一合作旨在解决当前语音AI系统中响应时间过长、对话不自然的核心痛点，为跨境电商卖家在客户服务、虚拟助手等场景中提供了更接近真人交互的技术可能。该演示构建了一个完全开源的模块化语音到语音（speech-to-speech）处理流水线：用户语音输入后，由Nvidia的Parakeet模型进行语音识别，接着Gemma 4 31B模型在Cerebras芯片上完成推理，最后通过阿里巴巴的Qwen3TTS模型将文本转为语音输出。整个流程中，每个模块都可被开发者独立替换或优化。Cerebras的推理速度优势尤为关键——传统系统在P95（95%分位）延迟上常出现数秒的卡顿，尤其在多轮对话或调用工具时更为明显，而Cerebras通过稳定且极快的推理能力消除了这一瓶颈。目前，这套流水线已实际应用于超过9000台Reachy Mini机器人中，证明了其在真实世界交互中的可靠性。对于中国跨境电商卖家而言，这一技术的落地意味着语音客服、智能导购等场景的体验将大幅提升。以往用户等待AI回复时的“机械感”和延迟，往往导致转化率下降或客户流失，而实时语音AI能让对话像真人交流一样流畅。同时，开源架构降低了定制门槛——卖家可以基于自身产品库、FAQ或促销策略，替换其中的语音识别或语言模型组件，无需从零开发。此外，Cerebras的推理效率也意味着更低的算力成本，对于需要处理大量并发语音请求的电商平台来说，这直接关系到运营成本的优化。随着语音交互在海外市场（尤其是欧美）的普及，能够提供“无感”语音服务的中国出海企业，将在用户体验上建立显著竞争优势。

留言 · 0 条