OpenAI 发布新语音系统「Whisper 」英文识别能力可接近人类水平

9 月 21 日，OpenAI 揭橥了一个名为「Whisper 」的神经搜集，声称其正在英语语音识别方面已亲近人类水准的鲁棒性和切实性。

「Whisper 」式一个自愿语音识别（ASR）体系，商酌团队通过应用从搜集上征求的 68 万个小时众语音和众劳动监视数据，来对其举办操练。

操练历程中商酌团队发觉，应用云云雄伟且众样化的数据集可能抬高对口音、配景噪音和身手措辞的鲁棒性。

此前有差别商酌外白，固然无监视预操练可能明显抬高音频编码器的质地，但因为缺乏一律高质地的预操练解码器，以及特定于数据会集的微调允诺，所以正在肯定水平上局部了模子的有用性和鲁棒性；而正在片面有监视的办法预操练语音识别体系中，其发扬会比简单源操练的模子大白出更高的鲁棒性。

对此，正在「Whisper 」中，OpenAI 正在新数据集比现有高质地数据集总和大几倍的基本上，将弱监视语音识其它数目级扩展至 68 万小时；同时，商酌团队还演示了正在这种界限下，所操练模子正在变化现罕睹据集的零射击发扬，可取消任何特定于数据集微调的影响，以完毕高质地结果。

正在很众差别的语音处罚劳动中操练一个序列到序列的转换器模子，搜罗众措辞语音识别、语音翻译、口头措辞识别和语音举动检测；总共劳动都显露为要由解码器预测的标志序列，答应简单模子代替古代语音处罚管道的差别阶段；众劳动操练式子应用一组额外的标志，行为劳动指定者或分类标的

Whisper 架构采用一种纯洁的端到端步骤，通过编码器 - 解码器 Transformer 来完毕：输入音频被分成 30 秒的块，转换成 log-Mel 频谱图后通报到编码器。解码器可预测相应的文本题目，并与额外标志羼杂，由这些标志指点单个模子推广诸如措辞识别、短语级工夫戳、众措辞语音转录和英语语音翻译等劳动。

值得一提的是，因为「Whisper 」是正在一个雄伟且众样的数据集进取行，没有针对任何特定的数据集举办微调，所以它不会击败特意商酌 LibriSpeech 职能的模子。

其它商酌团队还发觉，当正在很众差别的数据集上衡量「Whisper 」的零样本职能时，「Whisper 」比拟其他模子发扬愈加稳重，舛讹率低浸了 50%。

除了足够大的数据集界限外，「Whisper 」还扶助众种措辞的转录，以及将这些措辞翻译成英语。

目下正在 68 万小时音频中，共 11.7 万个小时笼盖了 96 中其他措辞，还搜罗 12.5 万个小时的转录和翻译数据，即大约有三分之一口角英语的。

「Whisper 」会瓜代推广以原始措辞转录或翻译成英语的劳动，对此商酌团队发觉，这种步骤正在进修语音到文本的翻译方面尤其有用，而且优于 CoVoST2 到英语翻译零样本的监视 SOTA。

OpenAI 创始人 Ilya Sutskever 对此显露，究竟有一个能知道我措辞的牢靠的语音识别体系。

联系人：	王先生
电话：	15640228768
微信：	1735252255
地址：	沈阳市铁西区兴华南街58-6号

思陌产品

使用帮助

关于我们

资讯反馈

联系我们