144 2010,46(23) ComputerEngineering andApplications计算机工程与应用 新型几何谱减语音增强方法 邬鑫锋,曾以成,刘伯权 WU Xin—feng,ZENG Yi—cheng。LIU Bo-quan 湘潭大学光电工程系,湖南湘潭411105 Department of Photoelectric Engineering,Xiangtan University,Xiangtan,Hunan 411105China ,E—mail:xinfengwu@1 26.corn WU Xin・feng,ZENG Yi‘cheng,LIU Bo—quan.Speech enhancement based on new spectral subtraction of geometric ap- proaeh.Computer Engineering and Applications.2010。46(23):144.147. Abstract:In order to get a better performance in processing the speech which changes rapidly,an improved speech enhance. ment algorithm based on self-adaptive averaging factor method is proposed in this paper.Simulation with Itakura..Saito dis.. tance,speech wave pierre,spectral picture Experimental results demonstrate that the proposed algoritm has bethter perfor・ mance of speech articulation without any perceptional musicality,compared to another modified spectral subtraction algo— rithms under the same level of noise reduction,and this superiority is more signiicantf at very low SNR. Key words:speech enhancement;spectral subtraction of geometric approach;Minimum Mean Square Error(MMSE);Itaku— ra.Saito djstance 摘要:针对几何谱减算法在处理快速变化的语音时产生语音畸变的缺点。提出一种基于最小均方误差算法估计每帧语音信号 的每一个频率分量上的平滑系数,产生自适应帧频率分量平滑系数代替固定值的平滑系数来估计先验信噪比,从而得到更加接 近于真实情况的先验信噪比。通过计算板仓.斋藤距离,及利用仿真波形图、语谱图对算法进行客观测试,结果表明新算法相对 其他谱减法在相同的去噪度下,语音畸变度最小且几乎察觉不到音乐噪声;特别是在低信噪比非平稳环境下,相对其他谱减法的 优势更加显著。 关键词:语音增强;几何谱减法;最小均方误差;板仓一斋藤距离 DOI:10.3778 ̄.issn.1002.8331.2010.23.041 文章编号:1002.8331(2010)23—0144—04 文献标识码:A 中图分类号:TN912 1 引言 语音增强的目的是从带噪语音中提取尽可能纯净的原始 时,增强效果并不是很好,而且会给结果带来音乐噪声,不仅 使听觉效果受影响,还影响后续处理,如语音识别等。为克服 传统谱减法的缺陷,出现了很多改进的算法如多频带谱减法u”、 自适应双谱多窗口谱减法、基于人耳掩蔽效应谱减法 等,这 些改进算法在消除音乐噪声,背景噪声和减少语音失真方面 都有一定效果,但并不理想。EVIN教授根据带噪语音在几何 上的关系提出了几何谱减法 ,此算法能有效地去除音乐噪 声,提高信噪比,但是增强后的语音畸变度较大。针对这个缺 点,提出用自适应帧频率分量平滑系数代替几何谱减法中固 定平滑系数来估计先验信噪比,即通过估计每帧频率分量平 语音,提高语音可懂度。常用的语音增强方法,大致可分为三 类:第一类是时域方法,例如基于参数和模型的方法 。 、子空 问的方法 等;第二类是频域方法,例如减谱法 、自适应滤 波法 以及基于马尔可夫模型滤波方法 等;第三类是其他方 法,例如小波变换法、听觉掩蔽法[101等。谱减法具有易于实现 和运算量小等优点,一直都是语音去噪的最主要的方法。它 是通过从含噪语音功率谱中减去噪声功率谱来估计纯净语音 的功率谱。因为人耳对语音的感知是通过响应语音信号中各 频谱分量的幅度获取的,而对各分量的相位不敏感,因此,就 可认为在语音增强过程中,语音信号的相位不变,在求得最佳 纯净语音幅度值后,加上原始带噪语音分离出来的相位即可。 在传统谱减算法中,假设噪声与语音相互独立,且是零均 值的高斯分布,从而纯净语音与噪音的相关项为零。但现实 中的噪声不一定是零均值高斯分布的,也可能是非零均值、非 滑系数,得到最佳先验信噪比,进而进行几何谱减法语音增强 处理,新算法能够有效去除背景噪声,且能在去除残留“音乐 噪声”度和语音畸变度之问做出很好的折中。 2几何谱减法 传统谱减法存在两个主要缺点:条件假设不合理与产生 高斯分布的;因而传统谱减算法在处理非零均值分布的噪声 音乐噪声,几何谱减法是为克服这些缺点而提出的,通过利用 基金项日:湖南省自然科学基金(the Natural Science Foundation of Hunan Province of China under Grant No.08JJ5031)。 作者简介:邬鑫锋(1982一),男,硕士研究生,研究方向:语音信号处理;曾以成(1962一),男,博士,教授,博士生导师,研究方向:信号处理;刘伯权 (1985一),男,硕士研究生,研究方向:语音信号处理。 收稿日期:2009.0l一15修回日期:2009—03—30 邬鑫锋,曾以成,刘伯权:新型几何谱减语音增强方法 2010,46(23) 145 带噪语音的几何关系得出先验信噪比估计的语音增强算法。 设 , ,aD}、{ ,0 , 。}分别是含噪语音、纯净语音、噪音的 幅值和相位,有: 。r;,,' ,、a (^一1,k) a 1 一 , 1 K J ●● J (10) 其中 ,( , )表示语音信号第^帧第 个频率分量上的帧频率分 (1) dye :口 e +aDe 量先验信噪比即时值,上式的即时先验信噪比仅仅利用了过 去的谱信息。 由式(7)得: 由方程(1)可作出带噪语音的几何关系图,如图1所示。 =y+1—2√yCyD 【11) 可以利用上式中 和y的关系以及当前帧获得的谱信息来 图1语音的几何关系图 直角三角形ABC中体现了含噪语音、纯净语音和噪声三 者之间的关系,其中 J_丽。可得: AB=ay sin(Oo—Or)=a sin(O,9一Ox)==> d;(1一c 2 J=口2 (1一c ) (2) 其中c cos( 一OD)、c肋 cos( 一OD),从以上方程可以得到 增益函数: = = (3) 从而司得到纯净语音功率谱的估计: l (∞ ) l=HGA (co )I】,(∞ )I2 (4) 当纯净语音和噪声的向量是正交时(即c =O)两者不相 关,几何谱减法的增益函数和传统谱减法的增益函数是相同 的,用传统谱减法处理即可,而当遇到其他情况时,用传统谱 减法处理就有误差,此时纯净语音和噪声的相位关系对增强 效果是有影响的,不能把它们的相关项当零处理。 图1中进一步由三角函数定理可得以下关系: CyD: ~—ay+ ao--ax (5) ㈦ 分子分母同除以a 得: c = (7) cXD: 。~— (8) 其中变量 、y ! ,分别表示先验信噪比和后验信噪比,从 dD 8D 而可以得到用先验和后验信噪比表示的增益函数: ,(y+1一 ) ( ,y)= 4y (9) ,(y一1一 ) 4 基于当前帧的后验信噪比p( ,七)可以通过噪声谱的估计 计算 2, 2获得,而基于当前帧的先验信噪比 ( ,后)则需要使 用估计的方法得到,即可利用当前和过去的谱信息,更确切的 说,可以利用增强了的前一帧幅度谱估计先验信噪比 : 求得 的估计值: 因为一1≤CyD 1,可由式(11)得到 的范围{√y一1)≤ ( +1) ,用它的下限作为估计值得: ( ,Ji})=(√≯( ,j})一1) (12) 其中≯( , )表示后验概率y在 帧k频率分量的估计值。综合基 于前一帧和当前I 的两种估计值,就可以得到以下估计方程: ( , )=口.Ih( 2-x1a。(1,七k) l +(1一。[).(厕 一1)(13) 是平滑系数,取值介于O.95~1.0之间,一般情况下取固定 值为0.98。a , )是噪声谱的估计值,若增强后的语音幅值 很小就会导致整个结果的衰减,从而使得语音信号出现谱失 真情况,产生畸变。因此就需要在处理过程的最后加上一个平 滑系数,用以防止处理结果的语音信号出现谱失真的情况。 3几何谱减法的改进 为了准确估计出带噪语音信号的先验信噪比,公式(13) 的估计方法计算当前帧的先验信噪比 ( , )对于如何合适地 选取参数a又是十分关键的问题。平滑系数a的取值对去噪度 和语音畸变度影响很大。例如,在估计 ( , )时平滑系数a是 在跟踪语音变化的准确度和 ( , )的平滑度之间权衡,即在语 音畸变度和残留音乐噪声度之间折中; ( ,七)的标准方差 ( ( ,.}i)的平滑度影响音乐噪声的大小)随 一1增大而增大,即 随着n的增大, (^, )越不平滑,带噪语音的变化程度称为“平 稳度”,平滑系数依据“平稳度”自适应变化。因此,选取一个 可靠的平稳度参数是至关重要的。其平滑系数是根据实验取 自固定的经验值。然而,实验表明先验信噪比估计中平滑系 数a较小时,语音畸变和噪声残留都较少,但残留的音乐噪声 显著;反之,a大时,语音畸变和噪声残留较多,但残留的音乐 噪声较少。所以,对于纯噪声帧和带噪语音帧的平滑系数取 值应该是不一样的,较好的解决办法是随语音出现的状态而 时变,带噪语音帧中平滑系数取较小值,纯噪声帧中平滑系数 取较大值。至于平滑系数时变的依据,可根据均方最小误差 算法估计最佳平滑系数。 在这里采用基于均方最小误差的估计方法估算各帧各个 频率分量上的平滑系数a ,以期得到每帧内各频率分量上的 先验信噪比估计值 , ),从而达到在去噪度、残留“音乐噪 声”和语音畸变度之间取得很好的均衡。由公式(13)得出先 验信噪比的修正方程: ( , )=6c ・ , I(1一a , )・(√ 一1)(14) 其中前一帧各频率分量的先验信噪比为: ( 一1,七)=l ̄hx(2 -1,k西。(一1,.j}))_1 (15) 采用均方最小误差方法来估计第 帧第七个频率分量的平 146 2010,46(23) ComputerEngineering andApplications计算机工程与应用 映语音变化情况,在语音变化较为平缓的帧中(纯噪声帧),平 滑系数n 的取值就接近于1;而在语音变化非常剧烈的帧中 (16) (带噪语音帧),平滑系数 估计值会变得比较小,以使得估 滑系数。c 。 由均方最小误差, =E{[ (五, )一 ( , )】 /4(z-1, ̄)) 一将公式(14)、(15)代入公式(16)可以推出 =a , 计的先验信噪比能够快速适应语音的变化。 4 3 3 2 l, )一 ( , )】 +1一a )。 , )+1] (17) 1 4实验结果与分析 咖 然后令 los 为零,就可算出基于均方最小误差估计的每 帧各频率分量上a 的最优解: 纯净语音取自标准语音库的一段男声:“1至1O”10个阿拉 伯数字的标准汉语发音。噪声取自NoiseX92的白噪音、工厂 (l , 1+ l1 l 可用 ( , )=( 口 的最优估计值。 (I8) 噪声和Babble噪声。将它们合成信噪比为.10~5 dB的带噪语 音,经过16 kHz采样,512点分帧,帧移256点。分别采用传统 谱减、几何谱减及本文改进的几何谱减法进行增强实验。 图2所示分别是受0 dB Babble噪声污染的语音及经过三 种不同的方法处理后的波形图,从图中可以清晰地看出,经过 由于 ( , )是未知量,故直接通过以上公式是无法求出 a 的,但又有以下近似的关系: ( , )} 4(2,x)。于是就 一1) 替代 ( , ),并代入公式(18)求出 大为减少。虽然去噪效果没几何谱减法强,但是原始语音得 到了很好的恢复。图3所示是受0 dB白噪声污染的语音及经 过三种不同的方法处理后的语谱图,从语谱图中看出,处理后 本文方法处理后,语音含有的噪声量相比传统谱减法增强后 可见,利用均方最小误差估计平滑系数a 能较真实地反 4 3 3 2 l● 【』 .。 i . ^. 1. . - ._ . 。 姗咖 ” - ” ’■r。 P' _ ’ I r : (a)O dB含噪语音(Babble噪音) (b)传统谱减法增强处理 : l 山 -. .. jL :- 1 r 一一 : 1 r -_ _一 2 3 4 5 6 ) 1 (c)几何谱减增强处理 图2波形图实验 (d)本文的方法增强处理 0.08 0.10 0.12 0.14 0.16 0 18 0.2O 0.22 (a)0 dB含噪语音(白噪声) (b)传统谱减法增强处理 (c)几何谱减增强处理 图3语谱图实验 (d)本文的方法增强处理 邬鑫锋,曾以成,刘伯权:新型几何谱减语音增强方法 的语音中残存的白噪声量也减少了,图3(d)中的语谱比前两 2010,46(23) 147 参考文献: [I]Gannot S,Burshtein D,Weinstein E.Iterative and sequential Kal- man filter-based speech enhancement algorithms[J].IEEE Trans Speech and Audio Procesing,1998,6(4):373-385. [2】Kin J B,Lee K Y,Lee C W.On the applications of the interact- ing multiple model algorithm for enhancing noisy speech[J]. IEEE Trans Speech and Audio Process,2000,8(3):349—352. 【3]Ephraim Y,Trees H L VA signal subspace approach for speech 种方法处理得到的语谱更清晰,特别是发“10”的语音得到很 好的恢复。 板仓.斋藤(Itakura.Saito(IS))距离可以作为衡量增强处 理后语音的畸变程度的指标。受不同信噪比工厂环境噪声污 染的语音在三种不同增强方法处理后与原始语音的板仓距离 如图4所示,很明显,在非平稳环境下,基于本文的语音增强算 法,有效地降低了板仓距离,语音最为逼近原始语音,即语音 畸变度最小。 enhancement[J].IEEE Trans Speech and Audio Processing,1995, 3(7):251-266. [4]Jabloun F,Champagne B.A multi—microphone signal subspace,dp— proach for speech enhancement[C]//Proc IEEE ICASSP,2001,9 (1):205—208. [5]Boll s.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Trans on Acoustic Speech and Signal Pro- cessing,1979.27(2):113—12O. [6]Fan Ningping.Low distortion speech denoising using an adaptive parametric Wiener filter[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2004,5(1): 17 21 [7]Ephraim Y,Malah D.Speech enhancement using a minimum mean 输入信噪比/dB square error short time spectral amplitude estimator[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1 984, 图4不同输入信噪比下语音增强处理后的I.s距离 32(60):1109—1121. 主观听觉实验中,本文方法和几何谱减法都感觉不到残 留“音乐噪声”和背景噪声,而本文的方法语音畸变度最小,耳 听舒适,在有效去除噪声的同时,在残留“音乐噪声”度和语音 畸变度之间能找到很好的折中。运算量上,本文方法相对几 何谱减法就多了一步均方最小误差计算,运算量增加不多。 5总结 在考虑基于几何谱减增强算法的基础上,自适应地调整 先验信噪比估计中的平滑系数,提出了在几何模型下的谱减 [8]高鹰,谢胜利.一种变步长LMS自适应滤波算法及分析[J]电子学 报,2001,29(8):1094—1097 [9]Jax P,Vary EArtificial bandwidth extension of speech sinalgs using MMSE estimation based on a hidden Markov model[C]//IEEE International Conference on Acoustics,Speech,and Sinalg Pro- cessing(ICASSP),2003,8(1):680—683. [10]Virag N.Signal channel speech enhancement based on masking properties of the human auditory system[J].IEEE Transactions on Speech and Audio Processing,1999,7(2):126-137. [1 1]Kamath S,Loizou P.A multi—band spectral subtraction method 算法的一种修正形式。实验表明,本文的白适应几何谱减算 法优于传统的几何谱减算法,能在有效去除噪声的同时,在残 or efnhancing speech corrupted by colored noise[C]//IEEE Trans Acoust,Speech Signal Process,2002,8(4):164-168. 留“音乐噪声”度和语音畸变度之间做出很好的平衡,这是因 为该算法能实时地自适应地跟踪语音的变化,从而使得几何 谱减法中的先验信噪比估计更符合假设的语音模型和人耳听 觉特性 [12]Pu F L,Wang W M,Dai Q J,et a1.Optimizing speech enhance- ment based on noise marked probability[J].Journal of Electron- ics&Information Technology,2005,27(5):753—756. [1 3]Lu Yang,Loizou P C.A geometric approach tO spectral subtrac- tion[J].Speech Communication,2008,7(50):453—466. (上接143页) [3]熊忠阳,李智星,张玉芳,等.基于正交分解的文本分类模型[J].计 算机工程,2009,35(14):227.229. 的运算转化为类别数的运算。改进后类中心分类法对高特征 维,大量文档分类是有效的。 [4]宋卫东衔几何[M].北京:高等教育出版社,2003:69—107. [5]刘丽珍.本分类中的特征选取[J]l计算机工程,2004(4). [6】刘健,张维明.基于互信息的文本特征选择方法研究于改进[J1.计 算机工程与应用,2008,44(10):135.137. 【7】吴春颖,王士同,蔡崇超.一种基于新词发现.Web文本表示方法[J1 l计算机应用,2008(3). 参考文献: [1]焦玉英,宋晓晴.基于VSM的文档信息检索改进[J].情报理论与实 践,2007,30(1):97.104. [2]陈治纲.于向量空间模型的文本分类系统研究与实现[D].天津:天 津大学,2005. [8]罗杰,陈力,夏德麟,等.基于新的关键词提取方法的快速文本分类 系统[J].计算机应用研究,2006(4):32.34.