OpenAI 发布新语音系统「Whisper 」英文识别能力可接近人类水平
- 2022-09-25 13:44:00
- aiadmin 原创
- 2539
9 月 21 日,OpenAI 揭橥了一个名为「Whisper 」的神经搜集,声称其正在英语语音识别方面已亲近人类水准的鲁棒性和切实性。
「Whisper 」式一个自愿语音识别(ASR)体系,商酌团队通过应用从搜集上征求的 68 万个小时众语音和众劳动监视数据,来对其举办操练。
操练历程中商酌团队发觉,应用云云雄伟且众样化的数据集可能抬高对口音、配景噪音和身手措辞的鲁棒性。
此前有差别商酌外白,固然无监视预操练可能明显抬高音频编码器的质地,但因为缺乏一律高质地的预操练解码器,以及特定于数据会集的微调允诺,所以正在肯定水平上局部了模子的有用性和鲁棒性;而正在片面有监视的办法预操练语音识别体系中,其发扬会比简单源操练的模子大白出更高的鲁棒性。
对此,正在「Whisper 」中,OpenAI 正在新数据集比现有高质地数据集总和大几倍的基本上,将弱监视语音识其它数目级扩展至 68 万小时;同时,商酌团队还演示了正在这种界限下,所操练模子正在变化现罕睹据集的零射击发扬,可取消任何特定于数据集微调的影响,以完毕高质地结果。
正在很众差别的语音处罚劳动中操练一个序列到序列的转换器模子,搜罗众措辞语音识别、语音翻译、口头措辞识别和语音举动检测;总共劳动都显露为要由解码器预测的标志序列,答应简单模子代替古代语音处罚管道的差别阶段;众劳动操练式子应用一组额外的标志,行为劳动指定者或分类标的
Whisper 架构采用一种纯洁的端到端步骤,通过编码器 - 解码器 Transformer 来完毕:输入音频被分成 30 秒的块,转换成 log-Mel 频谱图后通报到编码器。解码器可预测相应的文本题目,并与额外标志羼杂,由这些标志指点单个模子推广诸如措辞识别、短语级工夫戳、众措辞语音转录和英语语音翻译等劳动。
值得一提的是,因为「Whisper 」是正在一个雄伟且众样的数据集进取行,没有针对任何特定的数据集举办微调,所以它不会击败特意商酌 LibriSpeech 职能的模子。
其它商酌团队还发觉,当正在很众差别的数据集上衡量「Whisper 」的零样本职能时,「Whisper 」比拟其他模子发扬愈加稳重,舛讹率低浸了 50%。
除了足够大的数据集界限外,「Whisper 」还扶助众种措辞的转录,以及将这些措辞翻译成英语。
目下正在 68 万小时音频中,共 11.7 万个小时笼盖了 96 中其他措辞,还搜罗 12.5 万个小时的转录和翻译数据,即大约有三分之一口角英语的。
「Whisper 」会瓜代推广以原始措辞转录或翻译成英语的劳动,对此商酌团队发觉,这种步骤正在进修语音到文本的翻译方面尤其有用,而且优于 CoVoST2 到英语翻译零样本的监视 SOTA。
OpenAI 创始人 Ilya Sutskever 对此显露, 究竟有一个能知道我措辞的牢靠的语音识别体系。
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255