语音代理能否应对双语客户？前沿ASR在语码转换语音中的基准测试

全球超过一半的人口使用多种语言交流，对于许多双语用户来说，语码转换——即在对话中甚至一句话内无缝切换语言——是日常沟通的自然现象。无论是闲聊、客服中心还是IT服务台，人们都会根据当下情境灵活选择最顺口的语言。然而，尽管双语现象在全球如此普遍，针对语音助手如何处理企业场景中语码转换的研究却寥寥无几。当一位客户询问我们，他们的语音助手能否应对那些习惯频繁语码转换的双语用户群体时，我们决定自建基准测试和数据集来评估模型。我们聚焦于自动语音识别（ASR）——这是任何语音助手流程的第一步，因为转录错误会逐级传递到下游所有组件。在企业环境中，一次错误路由的工单或误解的政策咨询都会带来实际运营后果，因此准确转录是语音助手流程中尤为关键的一环。我们的基准测试覆盖了客户群体最相关的四种语言对：西班牙语-英语、法语-英语、加拿大法语-英语和德语-英语。测试以非英语语言为主干框架，嵌入不同长度的英语片段。数据涵盖广泛的人力资源（HR）和IT服务管理（ITSM）场景，包括员工关于福利或薪资的咨询，以及密码重置、VPN访问或设备故障排查等支持请求。为了衡量不同模型的表现，我们报告三项指标：词错误率（WER）、语义词错误率（SWER）和回答错误率（AER）。选择这些指标是为了同时捕捉模型在转录上的精确准确性，以及它们保留话语含义以用于下游任务的能力。我们通过评估语音模型的工具AU-Harness发布了基准测试和数据，并提供了七个ASR系统的结果，包括一些大型音频语言模型（LALMs）、前沿ASR和开源ASR。我们的主要发现是：语码转换的成本因测试的语言对和模型而异。ElevenLabs Scribe V2、Gemini 3 Flash和Assembly AI Universal 3-Pro在各项指标上表现最佳。数据构建流程：我们从内部IT支持和HR交互语料库入手。为了创建每个语码转换的话语，我们首先获取英语和四种非英语语言之一的平行用户话语，然后筛选出适合语码转换的候选内容。我们保留长度在12到40个单词之间的话语——足够短以模拟自然口语轮次，又足够长以包含真实的转换机会。我们还排除了实体占主导的话语，例如电子邮件、电话号码、ID或URL，这些内容因技术需求而非双语选择而半数为英语。最后，我们要求至少包含三个可转换的内容词——名词、动词或形容词，且不是实体或产品名称——以便生成模型有足够素材产生有意义的语码转换版本。在此基础上，我们测试了多种将语言以真实方式组合的策略，最终选择向LLM（OpenAI/GPT-5）发送简单角色提示来生成语码转换文本。随后，我们通过LLM口语化处理将文本转换为口语形式，并使用ElevenLabs Multilingual V2合成音频。每段话语都由一位母语为矩阵语言的AI/NLP语言学家审核；标记有问题的语段会被剔除。

留言 · 0 条