带你了解3类预训练语音模型预测方法

2022-12-16 11:52:00
aiadmin
原创
2280

摘要:正在调研众篇论文后,笔者发觉预熬炼语音模子的预测要领根本能够分为以下3类:1用前文预测眼前及后文(自回归)2 随机mask 少许帧并预测 3 用两侧上下文预测中央帧。

正在调研众篇论文后,笔者发觉预熬炼语音模子的预测要领根本能够分为以下3类:1用前文预测眼前及后文(自回归)2 随机mask 少许帧并预测 3 用两侧上下文预测中央帧。下文会遵从这三类来先容预熬炼语音模子的要领。

开始,语音信号被分成段输入到CNN模子,用于抽取特性,CNN层的输出Z再动作GRU层的输入,拿到带有时序讯息的输出C,然后用眼前时间t的带有时序讯息的Ct(睹过序列前面的讯息),来预测后续k个时间的CNN层输出Zt+k。Loss的是一个contrastive loss,它的公式如下图所示。

这个loss看起来纷乱,实在道理很纯粹,便是念让基于Ct的预测值更切近 Zt+k (分子),而更远离其他的CNN层输出Z,即negative sample (分母)。最小化具体的loss,会使分子最大化,分母最小化。这便是CPC熬炼的道理。

APC模子的输入是80维的log Mel spectrogram 特性,其模子也相当纯粹,便是一个3层的LSTM。熬炼的loss如下图所示。

这里咱们能够看出,这便是一个纯粹的L1 loss,但此中差别的是,它并不是同临时刻的xi和yi之间做L1 loss,而是用xi+n和yi之间做L1 loss。也便是说,它心愿能用第i时间的讯息去预测n个时间后的讯息,这么做的因为是心愿LSTM 不陷入Local information,从而能够infer 更众的整体讯息(global structure)。

VQ-APC是正在APC的基本上加了一个VQ layer。VQ,向量量化,能够纯粹的会意为对无穷种或许的相联向量的一个聚类,让语音的外征vector也变为有限种或许,肖似于NLP中有限数目的单词外征(一个单词一个外征,单词数目有限)。测验结果标明,正在APC模子的LSTM层中央参预VQ layer会是最终学到的向量外征更好,鄙人逛做事(如 phone classification; speaker classification)中发挥出更好的机能。

前面先容的4个模子都是基于自回归的思念,用前文预测后文讯息,模子也是基于LSTM或者GRU模块来告竣。跟着transformer正在越来越众的做事上被证据有更卓绝的机能,许众预熬炼语音模子的探求职员也把眼光参加到了transformer模子上。VQ-wav2vec [5] 便是此中一个较早的测试。下图是VQ-wav2vec模子架构图。

原始音频片断开始输入到CNN层提取特性,再做一个VQ,结果将VQ的output输入下一个CNN层再实行一次特性的空洞。结果用CNN层正在第i个时间的输出Ci来预测后面k个时间VQ的输出Zi+k,并做一个contrastive loss,主意是让Ci能更好的预测Zi+k,而更远离negative sample(不是Zi+k的其他Z)。熬炼完毕后,将VQ层的输出动作后面BERT的输入,随机mask掉少许帧并预测,熬炼一个BERT模子,获得具有时序讯息的外征。结果将这个讯息动作声学模子的输入,实行下逛做事。

开始,音频也是分段输入CNN层提取特性,然后一方面输入到VQ层,另一方面随机mask掉少许帧然后输入到Transformer层提取context representation C。熬炼的loss如下图所示。

除上述两个模子外,又有一个系列的模子(均来自台湾大学语音组)也是基于transformer模子,用随机mask掉少许帧并预测的体例做语音模子的预熬炼。第一个事业是Mockingjay [7],其模子框架如下图所示。开始,提取少许handcrafted feature(fMLLR, MFCC, FBank)并做random masking,然后通过下采样后,输入到transformer模子中,来预测mask掉的帧,并做L1 loss。

正在Mockingjay模子的基本上,Audio Albert模子 [8] 实行了些许校正。下图是Audio Albert和Mockingjay模子的区别。能够看出,Audio Albert基于Mockingjay的校正,是把众层的transformer都共享参数。其他地方没有任何区别。通过云云的校正,效过和不共享参数切近(comparable),然则确能够明显的低落参数目。

除上述两种预熬炼体例外,又有一种预熬炼体例 – 用两侧的讯息预测中央帧的讯息,NPC(Non-Autoregressive Predictive Coding)[10] 模子便是用这种体例实行的预熬炼。下图为NPC的模子框架。

输入是MFCC (80dim),但NPC模子熬炼时,输入模子的并不是全面sequence,它只需求输入被mask掉的帧前后的少许帧(比如前后各10帧),而被mask掉的帧日常为3帧。Mask掉3帧而不是1帧,能够防备模子直接复制mask 点的相邻点(xt-1,xt+1)的值动作眼前时间输入xt的预测值,从而防备预测值yt并没有相看待xt的讯息增益。被mask的input输入模子后,通过几层ConvBlock,每层ConvBlock也会mask中央的帧,且会层层递增,主意是防备输出yt睹到任何mask size内的数据。通过几层ConvBlock后的数据会加到一道获得ht(眼前时间做VQ之前的hidden representation),ht再通过一个VQlayer和一个linear layer,结果预测中央帧xt,loss用L1 Loss。这个模子的结果比autoregressive的模子都要好,何况能够明显的减小模子的巨细。

预熬炼语音模子是现正在语音界相当热门的一个科研宗旨。目前来看,基于transformer 的模子要好于早期基于LSTM或GRU的模子。若找寻机能,那目前公认最好的预熬炼语音模子应当是wav2vec 2.0。但若是找寻速率,那Audio ALBERT,以及NPC模子都是不错的采用,这两个模子或许正在保障comparable的机能的环境下,减小模子的巨细并晋升模子的速率。置信不久的未来,跟着深度研习技能的进一步进展,预熬炼语音模子无论正在机能,仍旧正在速率上,城市迎来新的晋升。

杰出了预熬炼模子便是少许人用某个较大的数据集熬炼好的模子(这种模子往往对比大,熬炼需求大批的内存资源)·

预熬炼模子综述摘要:近年来,预熬炼模子的显露将自然说话执掌带入了一个新的期间。本文概述了。并精确先容自然说话执掌...

pytorch中自带几种常用的深度研习收集预熬炼模子,torchvision.models包中包罗alexnet、densenet、inception、resnet、squeezenet、vgg等常用收集构造,而且供给了预熬炼模子,可通过挪用来读取收集构造和预熬炼模子(模子参数)。往往为了加快研习进度,熬炼的初期直接加载pretrain模子中预先熬炼好的参数。加载model如下所示:impo...

作家:张贤,哈尔滨工程大学本文约7000字,NLP专栏著作,发起保藏阅读审稿人:Jepson,Datawhale成员,卒业于中邦科学院,目前正在腾讯从事举荐算法事业。 构造总览 一、序论2018 年是呆板研习模子执掌文本(或者更凿凿地说,自然说话执掌或 NLP)的转机点。咱们对这些方面的会意正正在急迅进展:若何最好地呈现单词和句子,从而最好地捕获根本语义和相闭?其它,NLP 社区仍旧揭晓了特地

文 子龙自GPT、BERT问世此后,预熬炼说话模子正在NLP范围大放异彩,更始了众数榜单,成为眼前学界业界

本文基于调研的 14 篇医疗预熬炼说话模子的论文,总结了目前策画医疗领 域预熬炼说话模子的要领,这些要领首要能够分为三类:1熬炼;BlueBE...

应用huggingface下载预熬炼好的bert模子,并给出了简直代码应用,同时还给出了一个常睹的错歪曲决要领。

这便是结果的个人,闭于说话筑模、众选、问答编制、文天职类、定名实体识别等做事的模子微调,这一块我也是直接看人家条记本总结的。遵从这三个个人,这个库根本就弄熟了说话筑模首要有这两种体例实行筑模因果说话筑模:模子必需预测句子中的下一个象征(是以标签与向右转移的输入相仿)。为确保模子不作弊,当测试预测句子中的象征i + 1时,它将得到一个注意掩码,以防备其访候象征i之后的象征。 樊篱说话筑模:模子必需预测输入中被樊篱的少许象征。它还是能够访候全面句子,是以它能够正在樊篱象征之前和之后应用象征来预测其值

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号