国际多通道语音分离和识别大赛讯飞再夺冠不知不觉已“三连冠”!
- 2023-11-22 13:23:00
- aiadmin 原创
- 1345
科大讯飞结合中科大语音及言语音讯统治邦度工程测验室(USTC-NELSLIP)正在给定措辞人界线的众通道语音识别两个参赛职业上夺冠
最厉害的是,本次CHiME-6角逐中,讯飞将语音识别毛病率从CHiME-5的46.1%低重到了30.5%,成为全部参赛队列中独一将毛病率做到切近30%的机构!
邦际众通道语音离散和识别大赛CHiME(Computational Hearing in Multisource Environments),由法邦推算机科学与自愿化讨论所、英邦谢菲尔德大学、美邦三菱电子讨论测验室等着名讨论机构所于2011年倡导,至今已举办6届。
角逐的目标是愿望学术界和工业界针对高噪声、高混响、自正在议论场景提出全新的语音识别处理计划,从而进一步提拔语音识其它适用性和普适性,属于邦际语音识别评测中的高难度角逐。
因其角逐极具离间,参赛团队也大牛如云,已成为业界影响力最大、参赛队列最众、程度最高的众通道噪声鲁棒性语音识别角逐。
历届CHiME角逐的参赛队列囊括英邦剑桥大学、美邦卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立核心讨论院、德邦RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等邦际一流高校和讨论机构,以及清华大学、中邦科学院大学、中科院声学所、中科院自愿化所、西北工业大学等邦内顶尖院校和讨论所。
2016年9月13日,正在Google位于旧金山的总部,邦际众通道语音离散和识别大赛(CHiME)组委会公布:科大讯飞的团队正在六麦克风、双麦克风和单麦克风场景下都博得了最好的成果。
起首,采用众麦克风阵列可能巩固境况中的特定音响信号,双麦克声源只可定位180°内的界限,而环形麦克风阵列(不管是4Mic、6Mic仍然8Mic)都可能做到360°无死角声源定位,差异阵列的麦克风拾音成果差异,是以不行用统一轨范量度差异阵列的语音离散和识别成果。
科大讯飞正在CHiME-4中的六麦克风场景下到达了2.24%的词毛病率,如此的成果不行说完满,然则仍旧可能满意许众繁复场景下的语音识别需求了。
时光来到两年后的2018年9月7日,微软海得拉巴研发中央,新一届CHiME-5的角逐结果揭晓,科大讯飞团队再次包圆总计四个项目标第一,并大幅改正了各项目标最好成果,「我要,我全都要」。
方才过去的五一假期,讯飞又将2020年CHiME-6两项职业的冠军收入囊中,年年都是你,别人还怎样玩?
得益于众年正在实正在场景下的技能积聚,此次讯飞结合团队针比照赛职业举行了一系列技能革新,正在前端信号统治和后端声学筑模上都有了质的提拔。
正在前端信号统治方面,结合团队提出了基于空间-措辞人同步感知的迭代掩码估推算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME),该算法维系古代信号统治和深度研习的利益,使用空时众维音讯举行筑模,迭代地从众个措辞人场景中切确搜捕主意措辞人的音讯。该算法不只有用低重了境况滋扰噪声,并且可能有用扫除滋扰措辞人的语音,从而大大低重了后端识其它难度。
正在后端声学模子上,结合团队提出了基于空间-措辞人同步感知的声学模子(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM),通过正在声学模子输入端拼接众维度的空间音讯和差异措辞人音讯,使其能自符合区域别主意措辞人和滋扰措辞人。因而,声学模子不只依赖前端算法的统治结果,也也许自符合地完工对主意措辞人语音特色的提取,大大提拔了众人对话场景下语音识别声学模子的容错率和鲁棒性。
科大讯飞永远努力于智能语音技能的源流革新及资产化,并连续离间语音识别实践利用中的技能困难。此次CHiME-6的讨论成绩,无疑将进一步拓展科大讯飞语音识其它利用空间。
比方正在远隔绝集会场景下,交换的恣意性、音响叠加的情景明白节减,而练习数据却大幅增长了,因而操为难度要比CHiME-6的角逐职业低得众,毛病率势必会大幅低落。
仅正在2019年,科大讯飞的技能就办事了邦外里2000众场高规格大会!科大讯飞也得胜的成为北京2022年冬奥会和冬残奥会官方自愿语音转换与翻译独家供应商,为奥运会供给自愿语音转换与翻译技能和办事。
正在方才过去的GMIC2020(环球转移互联网大会)上,也是处处可睹讯飞听睹的身影,动作GMIC大会的智能直播字幕协作伙伴,讯飞听睹为公共献上了一场又一场的精准字幕直播。
滚动的字幕条,熟练的小耳朵,纵使分享嘉宾说的是英语,观众也能从及时的中英字幕中急迅Get到嘉宾见识。科大讯飞供给的技能救援,完成了及时英文转写、以及英译中等成效,让与会的全部人都能实时跟上Schmidhuber的思绪。
除了讯飞听睹智能集会编制,正在实践的利用场景中,科大讯飞的语音识别和众麦克风阵列信号统治技能还寻常利用正在差异的C端产物和办事中。
搭载八麦克风阵列的讯飞智能灌音笔、能完善记载集会内容的讯飞智能办公本、月活1.4亿且能免切换识别中英文及23种方言的讯飞输入法等,这些办公和生涯利用已触手可达,为宽广用户处理差异场景下的语音识别需求。
获取邦际众通道语音离散和识别大赛(CHiME)三连冠,评释科大讯飞不只正在中文语音识别规模永远维持领先名望,正在英文语音识别规模同样有着深重的功底,当然也可能迁徙到更众语种。
目前,科大讯飞正正在肆意拓展众语种语音识别方面的技能讨论,来日,科大讯飞希望为环球更众的企业和消费者供给优质的众语种智能语音处理计划,一齐希望吧!
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255