Meta 开源首个 AI 语音翻译系统闽南话和英语可以直接语音互译!
- 2024-04-13 16:30:00
- aiadmin 原创
- 765
呆板翻译是现今人类祛除发言失败、重筑巴别塔的新器材。然而,活着界现存的 7000 众种已知发言中,很众低资源发言还未取得足够的合切,加倍是有近一半的发言没有准则的书面体例,这是修建呆板翻译器材的一大失败,以是目前 AI 翻译要紧会集正在书面发言上。
正在欺骗 AI 推进自然发言翻译这件事上,Meta 无间竭力于“No Language Left Behind”(没有一种发言被落下)的主意。
例如汉语方言之一闽南话,现正在也有了专属的呆板翻译体例,讲闽南话的人可能与讲英语的人实行无失败对话了。
这是由 Meta 开源的第一个由 AI 驱动的非书面的、语音到语音的翻译体例。来听听这项职业的掌管人、Meta AI 研商员 Peng-Jen Chen 与小扎的对话,Chen 出生于中邦台湾。
该体例可能将闽南话的语音翻译成英语语音,反之亦可。会讲闽南话的读者可往后检查一下,是不是翻译功效还挺不错?
据认识,这个开源翻译体例是 Meta 的通用语音翻译(UST) 项宗旨一一面,该项目竭力于拓荒新的人工智能门径,助助完成全体现存发言的及时语音到语音的翻译。目前,Meta 仍然开源了该翻译模子和评估数据集,研商论文如下:
闽南话是汉语方言之一,是一种低资源发言,没有准则的书写体例,人工的英语到闽南话翻译职员也相对很少,所认为模子搜求和标注熬炼数据就变得特别疾苦。
为此,来自 Meta AI 的研商团队采用了一种额外放计划,欺骗汉语一般话(属于高资源发言)行动中心发言来修建伪标签和人工翻译。他们开始将英语(或闽南话)语音翻译成一般话文本,然后再翻译成闽南话(或英语)并将其增加到熬炼数据中。这种门径通过欺骗来自相似高资源发言的数据,极大地普及了模子职能。
语音开掘是熬炼数据天生的另一种门径。利用预熬炼的语音编码器,可以将闽南话语音嵌入编码到与其他发言好像的语义空间中,以是闽南话没有书面大局也不酿成题目。闽南话语音可能与语义嵌入相仿的英语语音和文本对齐,然后从文本中合成英语语音,形成并行的闽南话和英语语音。
很众语音翻译体例都依赖转录或者是语音到文本的体例。然而,闽南话的大局要紧是白话,缺乏准则的书面文字体例,无法转录成文本作。以是,Meta 所修建的是一个语音到语音的翻译体例。
研商职员利用语音到单位(speech-to-unit,S2UT)翻译,将输入语音直接翻译成一系列的声学单位,这也是 Meta 先前最早开创的一种道途。然后,从这些声学单位中天生波形。另外,研商职员还采用了 UnitY 行动双通道解码机制,第一通道解码器天生相干发言(即汉语一般话)的文本,第二通道解码器创筑单位。
语音翻译体例的评估器材平时是 ASR-BLEU 目标,该目标开始利用主动语音识别 (ASR) 将翻译后的语音转录为文本,然后将转录文本与人工翻译的文本实行斗劲,盘算 BLEU 分数。
但要评估闽南话的语音翻译体例,难处仍是正在于它没有准则的书面文字体例。以是,为了完成主动评估,研商职员拓荒了一个人例,将闽南语语音转录为一种称为 Tâi-lô 的准则化注音符号。云云就能正在音节的层面上盘算 BLEU 分数,从而斗劲区别门径的翻译质地。
除了拓荒这种评估闽-英语音翻译的门径外,研商职员还基于闽南话语料库 Taiwanese Across Taiwan,创筑了第一个闽-英双向语音到语音翻译基准数据集。该基准数据集将开源,以便当更众研商职员从事闽南话语音翻译职业。
为此,Meta 还宣布了 SpeechMatrix,它是一个大型的语音到语音翻译语料库,利用了 Meta 的革新数据开掘时间 LASER, 从欧洲议会灌音简直实演讲中开掘数据。该数据库蕴涵 136 种发言对的语音对齐,共 41.8 万小时的语音。开掘的数据和模子都是免费的,研商职员可能创筑自身的语音到语音翻译 (S2ST) 体例。
Meta 正在无监视语音识别 ( wav2vec-U ) 和无监视呆板翻译( mBART )方面的研商转机,也为白话翻译职业供应了援手。例如用于预熬炼语音模子的无监视域自适宜时间,普及了下逛无监视语音识另外职能,加倍是关于低资源发言,正在没有任何人工标注的处境下,可能修建高质地语音到语音翻译模子。
该模子仍正在不时推动中,目前一次只可翻译一个完全的句子,但这迈出了他日完成发言间同声传译的一步。
据 Meta AI 的研商员 Peng-Jen Chen 说,这个闽南话翻译体例实在有一一面是出于他的一个小我心愿。他正在中邦台湾长大,同时会讲一般话,然而他的父亲一般话欠好,他心愿他的父亲可以用闽南话与每小我都顺畅地相易。这也是 AI 之于人类的道理之一。
联系人: | 王先生 |
---|---|
电话: | 15640228768 |
微信: | 1735252255 |
地址: | 沈阳市铁西区兴华南街58-6号 |
-
思陌产品
深度学习系统产品介绍 -
使用帮助
使用手册 -
关于我们
公司简介 -
资讯反馈
交流论坛 -
联系我们
Tel 15640228768 QQ/WX技术支持 1735252255