OpenAI 发布新语音系统「Whisper 」英文识别能力可接近人类水平

2022-09-25 13:44:00
aiadmin
原创
2539

9 月 21 日,OpenAI 揭橥了一个名为「Whisper 」的神经搜集,声称其正在英语语音识别方面已亲近人类水准的鲁棒性和切实性。

「Whisper 」式一个自愿语音识别(ASR)体系,商酌团队通过应用从搜集上征求的 68 万个小时众语音和众劳动监视数据,来对其举办操练。

操练历程中商酌团队发觉,应用云云雄伟且众样化的数据集可能抬高对口音、配景噪音和身手措辞的鲁棒性。

此前有差别商酌外白,固然无监视预操练可能明显抬高音频编码器的质地,但因为缺乏一律高质地的预操练解码器,以及特定于数据会集的微调允诺,所以正在肯定水平上局部了模子的有用性和鲁棒性;而正在片面有监视的办法预操练语音识别体系中,其发扬会比简单源操练的模子大白出更高的鲁棒性。

对此,正在「Whisper 」中,OpenAI 正在新数据集比现有高质地数据集总和大几倍的基本上,将弱监视语音识其它数目级扩展至 68 万小时;同时,商酌团队还演示了正在这种界限下,所操练模子正在变化现罕睹据集的零射击发扬,可取消任何特定于数据集微调的影响,以完毕高质地结果。

正在很众差别的语音处罚劳动中操练一个序列到序列的转换器模子,搜罗众措辞语音识别、语音翻译、口头措辞识别和语音举动检测;总共劳动都显露为要由解码器预测的标志序列,答应简单模子代替古代语音处罚管道的差别阶段;众劳动操练式子应用一组额外的标志,行为劳动指定者或分类标的

Whisper 架构采用一种纯洁的端到端步骤,通过编码器 - 解码器 Transformer 来完毕:输入音频被分成 30 秒的块,转换成 log-Mel 频谱图后通报到编码器。解码器可预测相应的文本题目,并与额外标志羼杂,由这些标志指点单个模子推广诸如措辞识别、短语级工夫戳、众措辞语音转录和英语语音翻译等劳动。

值得一提的是,因为「Whisper 」是正在一个雄伟且众样的数据集进取行,没有针对任何特定的数据集举办微调,所以它不会击败特意商酌 LibriSpeech 职能的模子。

其它商酌团队还发觉,当正在很众差别的数据集上衡量「Whisper 」的零样本职能时,「Whisper 」比拟其他模子发扬愈加稳重,舛讹率低浸了 50%。

除了足够大的数据集界限外,「Whisper 」还扶助众种措辞的转录,以及将这些措辞翻译成英语。

目下正在 68 万小时音频中,共 11.7 万个小时笼盖了 96 中其他措辞,还搜罗 12.5 万个小时的转录和翻译数据,即大约有三分之一口角英语的。

「Whisper 」会瓜代推广以原始措辞转录或翻译成英语的劳动,对此商酌团队发觉,这种步骤正在进修语音到文本的翻译方面尤其有用,而且优于 CoVoST2 到英语翻译零样本的监视 SOTA。

OpenAI 创始人 Ilya Sutskever 对此显露, 究竟有一个能知道我措辞的牢靠的语音识别体系。

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号