Computer Engineering日 铆, c f D" 计算机工程与应用 ◎数据库、信号与信息处理@ 基于实值离散Gabor变换的谱减法语音增强 张 满,陶 亮,周 健 ZHANG Man,TAO Liang,ZHOU Jian 安徽大学计算智能与信号处理教育部重点实验室,合肥230039 MOE Key Laboratory of Intelligence Computing and Signal Processing,Anhui University,Hefei 230039,China ZHANG Man,TAO Liang,ZHOU Jian.Speech enhacement approach based on real-value discrete Gabor transform and spectral subtraction.Computer Engineering and Applications,2012,48(29):109—113. Abstract:In this paper,it proposes a novel speech enhancement method based on real--value discrete Gabor trans-- form,noisy speech is transformed to the joint time—frequency domain by fast real-value discrete Gabor transform in which the Gaussian is used as the transform kernel function.The noise spectral is estimated by the improved algo— rithm of minimum statics and optimal smoothing,then the speech spectral gain is got by spectral subtraction in the joint time—frequency domain,the clean speech is got by inverse transform by real—value discrete Gabor transform. Experimental results show that this method enhances the segSNR(Segmental Source—to-Noise Ratio)and improves the speech qualiy tcompared to other algorithms based on spectral subtraction. Key words:rea1.value discrete Gabor transform;noise estimate;spectral subtraction 摘要:提出了一个基于实值离散Gabor变换的新的谱减法语音增强,采用高斯窗作为综合窗,利用已有的快 速实值离散Gabor变换将语音变换到时频域,噪声估计采用改进的最优滤波和最小统计的martin算法,在联合 时频域进行谱减得到纯净语音增益,在得到语音增强信号后,利用实值离散Gabor逆变换将其还原输出 实验 结果表明,在分段信噪比和语音质量方面均与目前主流谱减法相比均有提高。 关键词:实值离散Gabor变换;噪声估计;谱减法 文章编号:1002—8331(2012)29—0109—05 文献标识码:A 中图分类号:TP393 1 引言 现实世界中,语音信号很难避免受到各种噪声 源的污染,语音增强的一个主要目的就是从带噪信 工神经网络的语音增强算法f61等。基于短时谱估计 的语音增强算法由于充分利用了在频域中语音和噪 声之间的特征区别和短时(一般认为2O ms内)的语 号中尽可能地恢复出纯净语音信号。语音增强技术 在语音识别、语音编码和人机语音交互等语音处理 领域中发挥着重要作用。 目前国内外对于语音增强的研究主要方向有: 基于短时谱估计的语音增强算法u 、基于人的语音 感知特性的语音增强算法 、基于信号子空间的语音 音和噪声之间较小的相关性这两个优点,使得基于 短时谱估计的语音增强算法在单声道语音增强算法 中最常见,而谱减法(spectral subtraction)由于其计 算量小,易于实时处理等特性在实际语音系统中得 到广泛应用。 在各种经典和改进的谱减法算法中需要将语音 从时域变换到频域时,均采用短时加窗傅里叶变换, 增强算法 、基于语音生成模型的增强算法 、基于人 基金项目:国家自然科学基金(No.61071169);安徽省敦 一{魉骄 F基金(No.2O10sQR018);安敞赶 静响 渐 基氢No.2009QN027B)。 作者简介:张满(1983~),男,硕士研究生,主要研究领域为信号处理;陶亮(1963一),男,博士,教授,主要研究领域为信号处理、 模式识别等;周健(1981一),男,博士,主要研究领域为信号处理。E—mail:zhangmanah@126.corn 收稿I1期:2012—02.29 修回H期:2012.06.11 DOI:10.3778/j.issn.1002—8331.2012.29.022 Computer Engineering andApplications计算机工程与应用 而采用其他时频分析工具如本文采用实值离散Gabor = y( +/L)= 七+ (6) 变换(RDGT)的谱减法文献并不多见。本文采用实 假设左( )需要满足能量归一化的约束,即 值离散Gabor变换处理语音信号基于以下考虑:第 与短时傅里叶相比,RDGT由于采用高斯窗函数 ∑Ij;( =1 (7) 而具有时频带宽最小的特性,相比短时傅里叶的其 Gabor变换系数a(m, )的取值是以m和 为 他窗函数(如汉明窗)对语音信号分析更加细腻,更 此时,如下: 易区分语音谱和噪声谱;其次,谱减法需要语音满足 变量的周期实数函数,a(m+iM, ):a(m, ),i,J=0,±1,±2,… (8) 在较小窗时间内是平稳信号这一假设的前提,但语 五(尼)与 尼)满足如下式的双正交条件嘲: 音信号本质是非平稳信号,许多文献表明RDGTt 与短时傅里叶相比更适合处理非平稳信号;另外,基 一,于学者陶亮等人的研究 。 ,本文可以通过在RDGT 中对抽样率参数进行控制而确定最优语音增强效 果;最后,在增强后的信号重建时,本文利用RDGT当 前最快的并行格型快速算法u 可快速重构语音信号, 算法复杂度与短时傅里叶相比更小,且失真度更小 (相关实验表明均方误差为10 数量级)。本文采用 基于最小统计和最优平滑的martin噪声估计算法 , 提出了基于实值离散Gabor变换的谱减法语音增强 算法,为了验证本文提出的算法的有效性,评价本文 的语音增强性能,进行了仿真实验,仿真实验表明本 文提出的算法在信噪比和语音主观试听质量上都优 于其他经典算法。 2实值离散Gabor变换(I GT) 设x(k)是周期为 的有限长时间序列,或经周期 拓展的时间序列,其实值离散Gabor展开的定义是: lⅣ一】 )=∑∑am=0”=0 (m, …㈣ (1) 实值离散Gabor变换(RDGT)的定义是: a(m, )= ) , (尼) (2) k=0 式(1)和式(2)互为变换对,其中: h .( )=h(k—mN)cas(2nnk/N) (3) . ( )= ( 一mN)cas(2nnk/N) (4) 其中,cas(x)是Hatrley函数,其定义为cas(x)=COSX+ sinx,L=砌:Ⅳ府, 是时域中的抽样点数,Ⅳ是 频域中的抽样点数,廊是时间的抽样间隔, 是频 率的抽样间隔,且N ̄/<L是Gabor展开和变换的完 备l生条件。痢 =Ⅳ = 是临界抽样条件,lltft ̄]"Gabor 变换系数a(m,n)的个数和时间序列x(k)的样点数相 同,而N)(/I>L是欠抽样的条件,此时a(m, 的个数 少于x(k)的样点数,导致信息的丢失。 j;( )和 )分别是综合窗 (尼)和分析窗),( 的 周期延伸,即 j;( )=h(k+iL)= ( + ) (5) f Z a(k+mN)cas(2 ̄tn枷) = ( (9) 其中,0 m 一1,0 一1, ( , (,z)表示kro— necker delta函数。 根据文献[8,15—16]证明,RDGT的变换系数与复 制离散Gabor变换系数c(m, 之间有如下关系: Re[c( , ]:—a(mn)+a (mN-,,—n) (10) —————一Im[c(m, )】=一—a(mn)- a(mN-,,n) (11) —————~实值离散Gabor变换与传统复值Gabor变换相 比,减少了复数运算,且可利用多抽样率的快速Hartely 变换并行算法实现变换和逆变换,为语音信号的变 换和重构减少计算量,具体算法可参考文献[12]。 3实值离散Gabor变换的功率谱减法 假设噪声为加性噪声且与短时平稳语音信号相 互独立,则含噪声语音信号), )可表示为: ∽= ∽+ ∽ (12) 其中 ( )和 ( 分别代表纯净语音信号和加性噪 声,且统计不相关。设l,R( ,,), ( ,,)和D ( ,,) 分别为 ( , ( , ( 的根据式(2)得到的实值离 散Gabor变换系数 ”1,有下式成立: ——————■■—————————■■ Y(k,,)=f吉[ ( ,,) +yR(七,N—f) ] (13) 其中y(尼,J『)为含噪语音信号的联合时频谱,k为帧 号(时刻),,代表第,个频率分量,Ⅳ为RGDT总的 抽样点数,且由于 )和 ( 相互独立,Gabor变换 具有线性性质,有下式成立: y ,,)=s(k,,)+D(后,,) (14) 上式中s(k,,)和D(k,,)分别表示纯净语音和噪声的第 k时刻第,频率点的时频谱,与式(13)类似定义为: 几———————=———————————■ S(k,,)=f+tsR(后,,) + R(尼,N一『) ] (15) ———————■■—————————_ D(k,,)=f+t‘ DR( ,,) +DR( ,N一,) ] (16) 实值离散Gabor变换的功率谱减法就是通过噪 声能量谱的估计,用谱减法公式: 张满,陶亮,周健:基于实值离散Gabor变换的谱减法语音增强 fS(k,『)l =fY(k,『)l‘一fD(k,,)l‘ (17) 音增强的具体操作步骤为:在式(15)中ly ,,)l 可以直接得到,但噪声能量谱 步骤1对语音唐弓进行Gabor变换,将吾 灿寸域转 步骤2采用文献[13]噪声估计方法,计算出噪声 I D(k,1)l 无法精确得到,需要噪声估计方法得到,传 换至崎冶删频域,得至岐 数矩阵 ( ,『)(维数 × 。 功率谱 ( ,f)(维数 ×Ⅳ)。 统方法是使用系统无语音时的统计平均e[fD(k,f) 来代替,噪声估计本文采用最小统计和最优平滑的 步骤3使用功率谱减法对语音信号进行增强, 噪声估计算法 ,纯净语音功率谱fs(k,,)f 的估计 对 (后,,)矩阵每一个点进行增益更新,利用 ,,) 1 ( ,,)1 可由下式获得: 的含噪语音相位信息,得到纯净语音的估计 (尼,,)。 l(尼,,)『=Iy(尼,1)1 一E[1V(k,,)I I (18) 步骤4利用式(19)和式(20)将语音信号进行 Gabor逆变换,输出增强的语音信号。 求得l ( ,,)『基础上可以直接得到 (尼,,),且由 于人耳对语音信号频谱分量的相位感知不敏感,可 5实验及性能比较 为验证本文提出算法的语音增强效果和性能, 本文使用了matlab进行了仿真实验,并将基本谱减法 (Bol1.SS SS) 】、改进的Martin噪声估计谱减法 利用含噪语音的相位信息,并通过下式实值离散 Gabor逆变换可得到增强后的纯净语音[8,15-16J: ( ,,)=Re(S(k,f))一Im(S(k,『)) ^ 一1Ⅳ一1 =(19) ∑∑ ,1)h(n—kN)cas(2zcnl/N) (20) (Martin.SSY”。 和 算法(Gabor_ss)进行胜能比较。 实验使用的纯净语音为TIMIT数据库样本,噪 声采用Noisex92数据库的高斯白噪声、汽车噪声、和 Babble噪声,噪声和纯净语音采样率均为8 kHz,混 合产生[0 10](单位:dB)范围的含噪语音,测试结果 既包括客观测试结果,也包括主观测试结果。 )即为增强后的语音,综匕所述,本文提出的基于 值离 散Gabor变换的谱减法语音增强的系统框图如图1 Ffr ̄。 客观测试结果包括分段信噪 ̄L(segSNR)和对数 频谱距离(LSD),其定义: _v—1 『_I 图1 实值离散Gabor变换功率谱减法系统框图 segSNR=+ylolg( 广 ————一)(21) Ⅳ:0 ∑[ (n+lN/2)] 本文需要指出的是,基于实值离散Gabor变换进 行的语音增强并不限于谱减法,理论上任何需要将 语音变换到频域或者时频域的算法都可以使用 RDGT作有用的尝试。 ∑[ 。 +lN/2)一g(n+lN/2)] ] 1 ,l r .. N/2 SD {  ̄ok=[101 ^f))-10lg(g(k }(22) 其中, 表示语音帧数。 4语音增强算法实现 综合上述内容,实值离散Gabor变换的谱减法语 在实验环境中,本文通过设置不同的过抽样率参数 进行控制,确定最优语音增强效果时为过抽样率为8。 表1给出了不同噪声环境下三种算法的两种客 表1三种谱减法(SS、Martin.SS、Gabor-SS)的客观评价结果 张满,陶亮,周健:基于实值离散Gabor变换的谱减法语音增强 2012,48(29) 113 IEEE Transactions on Speech and Audio Processing, Systems,Switzerland,2000,4:637—640. 1998,6(3). [3]Yu Z L,Er M H.Robust subspace analysis and tis appli— cation in microphone array for speech enhancement[J]. IEICE Transactions on Fundamentals,2005,E88一A(7): 1708.1715. 『1 01 Tao L,Kwan H K.Novel DCT-based real—valued dis— crete Gabor transform and its fast algorithms[J].IEEE Transactions on Signal Processing,2009,57(6): 215l一2164. [11】Tao Liang,Kwan H K.Block time—recursive real—valued discrete gabor transform implemented by unified parallel [4】Ephraim Y,Van—Trees H L.A signal subspace approach for speech enhancement[J].IEEE Transactions on Speech and Audio Processing,1995,3(4):251—266. lattice structures[J].IEICE Transactions on Information and Systems,2005,E88一D(7):1472—1478. 【5]Siow L Y,Nordholm S.A hybrid speech enhancement system employing blind source separation and adaptive [12]Tao Liang,Kwan H K.Parallel lattice structures of block time—recursive discrete Gabor transfclnn and its inverse noise cancellation[C]//Proceedings of IEEE NORSIG, 2004:204—207. transform[J].Signal Processing,2008,88(2):407—414. [13]Martin R,Malah D,Richard V,et a1.A noise reduction [6]Lee K Y,Mclaughlin S,Shirai K.Speech enhancement based on neural predictive hidden Markov model[J].Sig— nal Processing,1998,65(3):373・381. preprocessor for mobile voice communication[J].EURASIP Journal on Applied Signal Processing,2004:1046—1058. [14】赞怀清,高金枝.两类噪声谱估计方法的对比分析[J].计算 机工程与应用,2010,46(23):154—158. [7]陶亮,顾涓涓.实值Gabor变换理论及应用[M].合肥:安徽 科学技术出版社,2005. [15]周健,赵力,陶亮,等.基于实值离散Gabor变换的联合时 频域语音增强『J].信号处理,2010,12(26):1870—1876. [1 6]Zhou Jian,Huang Cheng,Zhang Man,et a1.Whisper de— [8]陶亮,庄镇泉.用于语音分析的实值离散Gabor变换[J】.电 声技术,2000(12). [9]Tao Liang,Kwan H K.Real discrete Gabor expansion for finite and infinite sequences【C]//Proceedings of the 2000 IEEE International Symposium on Circuits and noising in joint time—rfequency domain based on real— valued discrete Gabor transform[J].Applied Mechanics and Materials,2012:lO91 1096. (上接58页) using variable structure Fourier neural network[J].IEEE Transactions on Systems,Man and Cybernetics,Part B 4结论 针对目前傅里叶神经网络学习算法中存在的局 (Cybernetics),2010,40(2):458—468. [5]Muresan R C.Patten rrecognition using pulse-coupled neural networks and discrete Fourier transforms[J].Neu— rocomputing,2003,5 1:487—493. 部极小、收敛速度慢的问题,本文提出了采用双折线 步方法的傅里叶神经网络。通过相关的分析以及数 值算例实验证明,算法具有较陕的收敛速度、较高的 稳定性,且算法能保证全局收敛性。 [6]Osowski S,Nghia D D.Fourier and wavelet descriptors for shape recognition using neural networks--a compar— ative study[J].Pattern Recognition,2002,35:1949—1957. [7]Jones L K.Good weights and hyperbolic kernels for 参考文献: [1]Barshan B,Ayrulu B.Fractional Fourier transform pre— neural networks,projection pursuit,and pattern classiifca— tion:Fourier strategies for extracting information from processing for neural networks and its application to object recognition[J].Neural Networks,2002,15:131-140. high-dimensional data[J].IEEE Transactions on Informa— tion Theory,1994,40:439—454. [2]Cheng B,Tiaerington D M.Neural networks—a review from a statisitcal perspective[J].Statistical Science,1 994,9:2-30. [3】Barto A G.A neural network simulation method using [8】Dennis J E,Mei H H W.Two new unconstrained optimi— zation algorithms which use fimction and gradient val— ues[J].Journal of Optimization Theory and Applications, 1979.28(3):453—482. the fast Fourier transform[J].IEEE Transations on Sys. tem,Man,and Cybernetics,1976,6(12):863—867. [4】Zuo Wei,Cai Lilong.A new iterative learning controller [9]杨旭华 申经网络及其在控制中的应用研究[D].杭州:浙江 大学,2004.