基于联合损失函数的语音增强深度学习算法

2024-06-18 14:17:00
aiadmin
原创
505

:针对吃亏函数估计打算流程插手合于人耳听觉数据的根底上,策画了一种合伙吃亏函数的语音巩固深度研习算法。钻探结果说明:本文策画的羼杂吃亏函数达成巩固语音质地的光鲜优化。插手留意力机制后不妨鼓动靠山噪音的进一步削弱,从而得回更高可懂度。归纳操纵合伙吃亏函数并调解留意力机制后,可能使神经搜集得回更优质地巩固语音。应用留意力机制提取特质参数以及团结合伙吃亏函数举行神经搜集优化不妨鼓动巩固语音质地的提拔并到达更高的可懂度。

DNN 依据获取的语音特质对研习宗旨参数举行确切预计,目前已被平常运用于语音巩固的钻探中[1-2]。各样声学特质也对语音巩固方面存正在区别。依据古代语音特质举行明白并不行充塞反应语音内部讯息,也不行得回音帧和帧迅疾转换的结果,所以该模子并不行确切预测时频掩蔽结果,导致实质语音巩固本能较差[3-4]。正在靠山噪声滤除方面,时频掩模值阐明着环节感化,以通例时频掩模值举行执掌时并未针对语音相位举行明白,语音相位谱则对改良语音可懂性具相合键感化[5]。

依据上述钻探结果,本文优化了以语音巩固达成的搜集模子与吃亏函数[6]。为确保价钱函数不妨依据人耳感知特质发展明白流程,正在上述根底上策画了一种合伙吃亏函数。针对吃亏函数估计打算流程插手合于人耳听觉的数据。

举行深度研习时,需求应用均方差错吃亏函数(MSE)对神经搜集实行优化执掌,而MSE 只对巩固语音与纯净语音差错举行方便数据明白,并未切磋差错正负成分的影响,也未插手人耳感知的信号。此时只以MSE 构修吃亏函数不行确保巩固语音到达理思的算法执掌后果[7]。

本文从语音信噪比特质开拔,对以上函数实行动态团结,由此获得合伙优化价钱函数。创立了动态系数:

上述系数与时频单位信噪比存正在直接相合,SNR(l,k) 默示第l帧第k个频带对应的信噪比数据,同时依据各时频单位信噪比得回相应的动态系数,处于较高信噪比要求下时,动态系数亲密1。

正在合伙价钱函数中调解了人耳心情声学感知的内容[8],以此熬炼搜集来达成本能优化的宗旨,正在确保提拔话音质地的条件下使巩固话音具备更高可懂度。

以合伙吃亏函数创立语音巩固算法经众次反复熬炼后,不妨从含噪语音幅度谱内得回预计巩固语音幅度谱。图1给出了体例框图。

时频掩蔽成分是对神经搜集发生影响而惹起语音巩固本能区别的要紧要求,采用古代研习本事举行执掌时只需对语音幅度举行明白。确定羼杂特质参数与研习宗旨后,再对神经搜集发展输入、输出熬炼,同时应用最小均方差错优化搜集算法。再以BP 算法反向转达式样完工搜集参数的批改。从每次熬炼的结果膺选择最优本能的搜集模子举行记实后创立测试搜集模子。

本文选取合伙吃亏函数对两者区别举行评议,记实最优本能的搜集模子参数。举行测试时,先将含噪语音幅度谱插手源委熬炼的模子内,之后通过模子对巩固语音幅度谱举行预测,结果以语音相位参数完工信号重构。

以上语音数据都是由IEEE 语音数据库供给,之后从NOISEX-92 噪声库内提取Pink、Factory 与White 三种噪声信号,这些信号保留相似频率。服从同样信噪比把糟粕50 条纯净语音与噪声后半段举行羼杂后创立测试集。

从外3~5 中可能看到各噪声要求下的PESQ 值。此中,外3 显示,信噪比等于-5dB 的环境下,依据算法1 与2 测试结果可能展现,正在各样噪声要求下,PESQ值提拔均值到达0.13,同时STOI 值提拔了0.01 的均值程度。比拟算法2 与3 可能展现,PESQ 值提拔了0.07,STOI 提拔了0.01。

外4 显示,带噪语音信噪比等于0 dB 的要求下,依据算法1 与2 可能展现,各噪声下的PESQ 值都提拔了0.11,此时STOI 值提拔0.02。比拟算法2 与3 可能展现,PESQ 值提拔0.09,STOI 提拔0.01。

外5 显示,带噪语音信噪比等于5 dB 的环境下,比拟算法1 与2 可能展现,各噪声下的PESQ 值提拔到达0.13 的均值,STOI 值提拔了0.01。依据算法2 与3的比拟结果可知,PESQ 值提拔0.07,STOI 提拔0.01。

1)通过比照算法1 与2 测试结果获得:当噪声与信噪比都分歧的环境下,以合伙吃亏函数达成的巩固语音PESQ 值普及0.12,STOI 普及0.01。依据算法1 与2 可知,本文策画的羼杂吃亏函数达成巩固语音质地的光鲜优化。

2)比照算法2 与3 结果可能展现,为神经搜集模子设备留意力机制后,可能使巩固语音PESQ 值普及0.08,STOI 普及0.01。同时依据算法2 与3 结果可能推测,插手留意力机制后不妨鼓动靠山噪音的进一步削弱,从而得回更高可懂度。

3)比拟算法1 与3 结果可知:以合伙吃亏函数对神经搜集发展熬炼时,同时插手自留意力机制来明白理神经搜集特质的环境下不妨达成巩固语音质地的明显改良,此时PESQ 值提拔0.2,STOI 提拔0.03。

1)本文策画的羼杂吃亏函数达成巩固语音质地的光鲜优化。插手留意力机制后不妨鼓动靠山噪音的进一步削弱,从而得回更高可懂度。

2)归纳操纵合伙吃亏函数并调解留意力机制后,可能使神经搜集得回更优质地巩固语音。应用留意力机制提取特质参数以及团结合伙吃亏函数举行神经搜集优化不妨鼓动巩固语音质地的提拔并到达更高的可懂度。

[3] 葛宛营,张天骐.基于掩蔽预计与优化的单通道语音巩固算法[J].估计打算机运用,2019, 39(10): 6.

[4] 鲍长春,项扬.基于深度神经搜集的单通道语音巩固本事回来[J].信号执掌,2019,35(12): 11.

[7] 李鸿燕,屈俊玲,张雪英.基于信号能量的浊语音盲信号离别算法[J].吉林大学学报(工学版),2015,(5): 6.

[8] 戴红霞,唐於烽,赵力.基于维纳滤波与理思二值掩蔽的数字助听器语音巩固算法[J].电子器件,2019,42(4): 4.

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号