本篇文章1603字,读完约4分钟

雷锋。网站:雷锋。com报道了百度以前在语音技术方面的进步。近日,百度美术学院宣布了其在声纹识别方面的突破性成果。研究表明,与传统的I-向量方法相比,深度学习方法的识别准确率有明显提高。

声纹识别算法试图从音频中识别说话人的身份。两个常见的识别任务是确认(说话者是否是他声称的那个人)和说话者识别(在一群未知的说话者中确认声音的来源)。

这项技术已经以各种方式得到应用。例如,声波纹可用于登录设备。说话人确认也可以用作金融交易的附加安全措施。此外,像智能家庭助理这样的共享设备也可以使用这项技术来提供个性化服务。

最近使用神经网络进行声纹识别的论文改进了传统的I-向量方法(参考原始论文或interspeech教程的幻灯片)。I-vector方法认为,语音内容可以分为两部分,一部分取决于说话人和通道的可变性,另一部分取决于其他相关因素。i-vector声纹识别是一个多步骤的过程,包括使用不同说话人的数据来估计一般的背景模型(通常是高斯混合模型),收集足够的统计数据,提取I-vector,最后使用分类器进行识别。

百度发布Deep Speaker:大规模声纹识别的端对端系统

有些论文用神经网络代替I-向量管道法。其他研究人员要么训练了一个与文本相关的端到端说话人识别系统(用户必须说出同样的话),要么训练了一个与文本无关的端到端说话人识别系统(该模型与语音内容无关)。我们引入了深度说话人,一种端到端的神经声纹识别系统,它在文本相关和文本无关的场景中都取得了良好的效果。这意味着系统可以被训练来识别谁在说话,不管你是对你的家庭助理说“醒来”还是在会议上发言。

百度发布Deep Speaker:大规模声纹识别的端对端系统

深层说话人由从音频中提取特征的深层神经网络层、基于余弦相似性的时间池和三元组损失组成。百度美术学院探索了由resnet激活的卷积模型以及现有模型在提取声学特征中的作用。

注意:百度美术学院在这里使用了人脸识别中使用的三重损失。在训练过程中,他们选择一个说话人的语音,然后计算嵌入量(标记为“锚”)。生成两个嵌入,一个来自相同的说话者(标记为“正”),另一个来自不同的说话者(标记为“负”)。在训练过程中,目标是使锚和正嵌入之间的余弦相似度高于锚和负嵌入之间的余弦相似度。

百度发布Deep Speaker:大规模声纹识别的端对端系统

百度美术学院在三个不同的数据集上展示了深层说话者的有效性,包括文本相关和文本无关的任务。其中一个uids数据集包括大约250,000个说话者,这是知识文献中最大的数据集。实验结果表明,深度说话人方法优于基于dnn的I-向量方法。例如,从文本无关的数据集中随机选取100个说话人,深层说话人在说话人识别任务中的错误率和准确率分别为1.83%和92.58%。与基于dnn的i-vector方法相比,误差率降低了50%,准确率提高了60%。

百度发布Deep Speaker:大规模声纹识别的端对端系统

说明:在实验中,百度美术学院使用的数据集是uids、小店和普通话。Uids和小店是中文数据集,mturk是英文数据集。Uids和mturk是文本无关的数据集,而小都是基于百度的唤醒词的文本相关数据集。为了对不同大小的训练集进行实验,他们使用了所有uid数据集(250,000)和一个子集(50,000)。在评估阶段,他们选择了一个锚,然后从测试部分随机选择了一个锚阳性样本和99个锚阴性样本。

百度发布Deep Speaker:大规模声纹识别的端对端系统

该团队还发现,深层说话者学习了与语言无关的特征。在汉语语境中训练时,深层说话人在英语确认和识别中的错误率为5.57%,准确率为88%。此外,先用普通话再用英语进行训练,与只用英语训练相比,可以提高英语识别的准确性。所有这些结果表明,尽管不同的语言听起来非常不同,但深层的说话者已经学会了跨语言的声音特征。这些结果类似于深度语音2的结果,并且相同的结构可以用于不同语言的声纹识别。

百度发布Deep Speaker:大规模声纹识别的端对端系统

关于深层说话人模型、训练技巧和实验结果的更多细节可以在本文中找到。

论文地址:arxiv/ABS/170200.02000000005

百度百科,雷翻译(公开号:雷)

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

来源:搜狐微门户

标题:百度发布Deep Speaker:大规模声纹识别的端对端系统

地址:http://www.shwmhw.com/shxw/61340.html