网易AI Lab斩获全球顶级声纹识别竞赛冠军

2023-09-08 09:24:00
aiadmin
原创
1767

即日,环球最大的语音聚会 INTERSPEECH 2020 宣布了 SdSV 声纹识别竞争劳绩,网易 AI Lab 从浩瀚邦际顶级部队中脱颖而出,获文本合系声纹识别赛道归纳排名第一、单模子第一的双料冠军。彰显了网易 AI Lab 正在语音声纹识别手艺范围的领先名望。

本次邦际声纹识别竞争是业界相当具备威望性的赛事,参赛部队来自邦际众家着名高校与企业,征求近两年环球各项声纹识别竞争中的“常胜将军”:布尔诺工业大学、新加坡通讯磋议院、约翰霍普金斯大学等。

竞争中,网易 AI Lab 基于常睹的X-Vector 和 PLDA 算法,立异地提出了一种 ASR-free 的文本合系声纹识别算法。比拟古板的 Deep Speaker Embedding 措施,该算法不需求依赖语音识别,就可能正在众说话境况下,同时结束言语人和文本内容的验证。

竞争采用 MinDCF(最小检测价格)和 EER(等舛错率)行动评测目标。网易 AI Lab 的单模子正在两个目标均为最佳,个中 EER 抵达了 1.67%,比拟第二名下降了 11.6%,并远低于竞争 X-Vector 基线%)。

评估算法体系本能时常输出 ROC 弧线,用于描绘 FAR(误识率)与 FRR(拒识率)之间的相干。

浅易说,正在声纹识别中,误识率便是“把不应当成家的声纹当成成家声纹”的比例,拒识率则是“把应当成家的声纹当成不行家声纹”的比例。

正在对安详请求相当高的操纵场景,就会把 FAR 值设备得低少许,由于鉴定错一次的价格很大,但云云做的同时会导致 FRR 值上升,用户体验度低浸。

等舛错率(EER)是体系的误识率(FAR)和拒识率(FRR)相当时的舛错率,即 ROC 弧线 度角直线交友的点,是权衡声纹识别算法体系归纳本能的紧张目标。EER 数值越小,体系本能越好。

目前,人工智能重要有三个磋议宗旨:视觉识别、智能语音、NLP 自然说话统治。个中,正在语音识别范围,声纹识别属于相对蓝海墟市,处分的重要是“我是我”的身份认证题目,众操纵正在安详验证场景。

跟着手艺的连接成熟和协调,声纹识别手艺将逐步融入平时生存,遵照差异操纵场景的特色举行针对性开采,将形成强大的操纵价钱。

而网易 AI Lab 声纹识别手艺实在早已被操纵于逛戏场景中。除了举行逛戏身份验证,还可能针对音色对用户举行分类、充分玩家画像,从而愈加精准地为玩家推举志趣相合的老友、成家势力相当的敌手,为玩家带来更好的逛戏体验。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号