AI评分 一般 (65)AI 中文改写

语音代理能否应对双语客户?前沿ASR在语码转换语音中的基准测试

12 天前 7 阅读来源:HuggingFace Blog

AI 中文改写

原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接

全球超过一半的人口使用多种语言交流,对于许多双语用户来说,语码转换——即在对话中甚至一句话内无缝切换语言——是日常沟通的自然现象。无论是闲聊、客服中心还是IT服务台,人们都会根据当下情境灵活选择最顺口的语言。然而,尽管双语现象在全球如此普遍,针对语音助手如何处理企业场景中语码转换的研究却寥寥无几。当一位客户询问我们,他们的语音助手能否应对那些习惯频繁语码转换的双语用户群体时,我们决定自建基准测试和数据集来评估模型。我们聚焦于自动语音识别(ASR)——这是任何语音助手流程的第一步,因为转录错误会逐级传递到下游所有组件。在企业环境中,一次错误路由的工单或误解的政策咨询都会带来实际运营后果,因此准确转录是语音助手流程中尤为关键的一环。 我们的基准测试覆盖了客户群体最相关的四种语言对:西班牙语-英语、法语-英语、加拿大法语-英语和德语-英语。测试以非英语语言为主干框架,嵌入不同长度的英语片段。数据涵盖广泛的人力资源(HR)和IT服务管理(ITSM)场景,包括员工关于福利或薪资的咨询,以及密码重置、VPN访问或设备故障排查等支持请求。为了衡量不同模型的表现,我们报告三项指标:词错误率(WER)、语义词错误率(SWER)和回答错误率(AER)。选择这些指标是为了同时捕捉模型在转录上的精确准确性,以及它们保留话语含义以用于下游任务的能力。我们通过评估语音模型的工具AU-Harness发布了基准测试和数据,并提供了七个ASR系统的结果,包括一些大型音频语言模型(LALMs)、前沿ASR和开源ASR。我们的主要发现是:语码转换的成本因测试的语言对和模型而异。ElevenLabs Scribe V2、Gemini 3 Flash和Assembly AI Universal 3-Pro在各项指标上表现最佳。 数据构建流程:我们从内部IT支持和HR交互语料库入手。为了创建每个语码转换的话语,我们首先获取英语和四种非英语语言之一的平行用户话语,然后筛选出适合语码转换的候选内容。我们保留长度在12到40个单词之间的话语——足够短以模拟自然口语轮次,又足够长以包含真实的转换机会。我们还排除了实体占主导的话语,例如电子邮件、电话号码、ID或URL,这些内容因技术需求而非双语选择而半数为英语。最后,我们要求至少包含三个可转换的内容词——名词、动词或形容词,且不是实体或产品名称——以便生成模型有足够素材产生有意义的语码转换版本。在此基础上,我们测试了多种将语言以真实方式组合的策略,最终选择向LLM(OpenAI/GPT-5)发送简单角色提示来生成语码转换文本。随后,我们通过LLM口语化处理将文本转换为口语形式,并使用ElevenLabs Multilingual V2合成音频。每段话语都由一位母语为矩阵语言的AI/NLP语言学家审核;标记有问题的语段会被剔除。

以上为 AI 中文改写版本,如需查看英文原文请访问

英文原文 · HuggingFace Blog

内容版权归原作者及 HuggingFace Blog 所有

这篇文章对你有帮助吗?
觉得有用?分享给更多人

留言 · 0

暂无留言,来说两句吧

留言经合规过滤后展示,禁止违法内容