微软发布 AI 声音生成工具 VALL-E只需 3 秒音频即可模仿人说话

IT之家 1 月 10 日动静，微软比来揭晓了一款名为 VALL-E 的人工智能器械，只需 3 秒音频即可效仿人说线小时英语语音数据的操练，并应用特定语音的 3 秒剪辑来天生内容。与目前的很众人工智能器械分别，VALL-E 能够复制言语者的感情和语气，纵使言语者自己从未说过的单词也能够效仿。

IT之家明白到，康奈尔大学的一篇论文应用 VALL-E 合成了几种音响，公共能够正在 GitHub 上谛听这些 AI 合成的音频。

查究职员指出，正在很众景况下，Vall-E 的机能优于现时的文本到语音转换模子。然而，该查究还写道，人工智能模子目前存正在几个题目。比方，文本提示中的某些单词或者会发音不明白、完整漏掉或正在输出中显示两次。另外，该模子目前难以效仿某些音响，特别是带有口音的音响。

像其他 AI 新本领一律，VALL-E 正在安静、伦理等方面也激发了忧愁。微软揭晓了闭于应用 VALL-E 的德行声明，但来日的应用用处方面没有真切阐明。

目前，微软 Vall-E 尚未开源。微软一经正在 GitHub 上创筑了一个 Vall-E 存储库，但目前只蕴涵一个描绘文献。