三连冠!科大讯飞完成“史上最难”语音识别任务

2024-05-02 15:59:00
aiadmin
原创
611

相接第三次夺冠!日前,邦际众通道语音涣散和识别大赛(CHiME)组委会正在线揭晓最新一届CHiME-6功效:科大讯飞说合中科大语音及言语消息处置邦度工程测验室(USTC-NELSLIP)正在给定语言人界线的众通道语音识别两个参赛职业上夺冠。自2016年此后,科大讯飞第三次参预这项邦际竞赛,并相接夺冠,这回的语音识别舛错率从CHiME-5的46.1%降至30.5%。

CHiME(Computational Hearing in Multisource Environments)由法邦预备机科学与自愿化探索所、英邦谢菲尔德大学、美邦三菱电子探索测验室等出名探索机构所于2011年倡导,本年是第六届,角逐的方针是期望学术界和工业界针对高噪声、高混响、自正在说论场景提出全新的语音识别处分计划,从而进一步晋升语音识其它适用性和普适性。

CHiME-6被称为“史上最难的语音识别职业”,具有四浩劫点:洪量的语音交叠(Speech Overlap)、远场混响和噪声骚扰对灌音的影响、对话作风相当自正在,近乎疏忽、练习数据有限。

角逐极具寻事,参赛团队也大牛如云。历届CHiME角逐的参赛队列蕴涵英邦剑桥大学、美邦卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立主题探索院、德邦RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等邦际一流高校和探索机构,以及清华大学、中邦科学院大学、中科院声学所、中科院自愿化所、西北工业大学等邦内顶尖院校和探索所。而正在CHiME-6中,美邦的约翰霍普金斯大学、俄罗斯STC公司、德邦帕德博恩大学、捷克布尔诺理工大学等出名学术机构及企业均有参赛。

本次CHiME-6和CHiME-5角逐行使的语音素材相通,即正在众个差别的存在场景——蕴涵众人正在厨房边做饭边闲聊、正在起居室边用餐边闲聊、正在客堂闲聊,闲聊的音响中蕴涵远场、混响、噪音、语音叠加等各样杂乱要素,因此技巧难度极大。本次角逐的Track1职业与CHiME-5相通,即正在给定语言人界线的情景下要点稽核参赛团队的众通道信号处置才干及杂乱场景语音识别才干。别的,本次角逐新设了Track2职业,该职业恳求参赛机构正在自愿语言人涣散的底子上再举行语音识别。

CHiME-6音频样本收集于厨房、起居室、客堂等场景的众人对线角逐,科大讯飞说合中科大语音及言语消息处置邦度工程测验室杜俊教学团队(USTC-NELSLIP)斩获了四个角逐项方针一切冠军。然而,当年最优的参赛编制语音识别舛错率仍高达46.1%,隔断适用仍有较大差异,因此,本年USTC-NELSLIP说合团队要点聚焦于Track1,期望进一步寻找杂乱场景语音识别适用化的可以性。通过团队的技巧攻闭,将该职业上的语音识别舛错率从本来的46.1%降至30.5%,大幅改革该项赛事史籍最好功效,进一步拉大领先上风,最终正在Track1的两个子职业(Track1-Ranking A,需行使官方言语模子;Track1-Ranking B,不范围言语模子)上均斩获冠军。

这得益于众年来正在的确场景中的技巧积聚,USTC-NELSLIP说合团队针比照赛职业举行了一系列技巧更始。正在前端信号处置方面,说合团队提出了基于空间-语言人同步感知的迭代掩码估预备法(Spatial-and-Speaker-AwareIterativeMaskEstimation,SSA-IME),该算法连结古板信号处置和深度进修的利益,操纵空时众维消息举行筑模,迭代的从众个语言人场景中正确搜捕标的语言人的消息。该算法不只有用低落境遇骚扰噪声,并且可能有用清扫骚扰语言人的语音,从而大幅低落语音识其它处置难度。

正在后端声学模子上,说合团队提出了基于空间-语言人同步感知的声学模子(Spatial-and-Speaker-AwareAcousticModel,SSA-AM),通过正在声学模子输入端拼接众维度空间消息和差别语言人消息,使其能自顺应划分标的语言人和骚扰语言人。以是,声学模子不只依赖前端算法的处置结果,也不妨自顺应实现对标的语言人语音特点的提取,大幅晋升众人对话场景下语音识别声学模子的容错率和鲁棒性。

2019年说合邦教科文结构(UNESCO)正在法邦举办的“人工智能鼓舞可陆续起色”集会、正在瑞士举办的2019消息社会寰宇顶峰集会(WSIS)论坛、2019年天下两会等巨大邦际及邦内集会现场均行使了讯飞听睹智能集会编制供应的英文及中文转写办事,而这背后,便是科大讯飞积聚众年的语音识别主题泉源人工智能技巧。基于主题泉源技巧上风,昨年9月份,科大讯飞正式成为北京2022年冬奥会和冬残奥会官方自愿语音转换与翻译独家供应商,为奥运会供应自愿语音转换与翻译技巧和办事。方今,讯飞听睹智能集会编制已成为邦外里大型集会的得力助手,仅2019年就办事了邦外里2000众场高规格大会。

此次获取邦际众通道语音涣散和识别大赛(CHiME)三连冠,声明科大讯飞不只正在中文语音识别界限长远维持领先身分,正在英文语音识别界限同样有着深浸的功底。目前,科大讯飞正正在大肆拓展众语种语音识别方面的技巧探索,通过长远的智能语音技巧积聚及研发攻闭,目前已为华为新揭橥的旗舰手机P40供应众语种语音技巧。另日,科大讯飞希望为环球更众企业及消费者供应优质的众语种智能语音处分计划。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号