2013年第6期 文章编号:1006-2475(2013)06-0016-04 计算机与现代化 JISUANJI YU XIANDAIHUA 总第214期 基于CCA和PCA的说话人特征降维研究 陈觉之 ,张贵荣 ,周宇欢 (1.海军指挥学院信.E-系,江苏南京211800;2.中国人民92601计量站,广东湛江524009; 3.理工大学指挥信息系统学院,江苏南京210007) 摘要:为提高说话人识别的性能,提出将CCA与PCA联合用于说话人特征降维的方法:先用CCA融合基于声道模型的 LPC特征和基于听觉模型的MFCC特征,提升这两类不同特征的相关性;然后用PCA进一步去除冗余特征,降低有效特 征的维数。实验显示。这两种降维方法联合的降维效果与单一的CCA降维、PCA降维或手动降维的效果比有明显提高。 关键词:说话人识别;典型相关分析;主成分分析;高斯混合模型;特征降维;线性预测系数;美尔频率倒谱系数 中图分类号:TN912.34 文献标识码:A doi:10.3969/j.issn.1006-2475.2013.06.005 Research on Dimension Reduction of Speaker’S Characteristics Based on CCA and PCA CHEN Jue.zhi ,ZHANG Gui.rong ,ZHOU Yu huan (1.Dept.of Information,Naval Command College,Nanjing 21 1 800,China; 2.Meteirng Station,Troop 92601 of PLA,Zhanjiang 524009,China; 3.Institute of Command Ifonrmation System,PLA University of Science and Technology,Nanjing 210007,China) Abstract:With the purpose of improving the performance of speaker recognition,a method of dimension reduction in speaker’S characteristics by iointing CCA and PCA iS proposed.Firstly.LPC characteristics based on acoustic models and MFCC character- istics based on auditory models are blended by CCA method SO as to enhance the correlativity between LPC and MFCC.After that the PCA method is used to eliminate redundant eharacteristics SO as to reduce the effective characteristic dimensions of speech sig. ha1.Experiments show that the efifciency of dimension reduction of this novel method that joints CCA and PCA iS significantlv im. proved comparing to that of traditional methods while only using CCA dimension reduction,PCA dimension reduction or manual dimension reduction. Key words:speaker recognition;canonical correlation analysis(CCA);principal components analysis(PCA);Gaussian mixture model(GMM);dimensional reduction;linear prediction coeficifent(LPC);Mel frequency cepstrum coeicifent(MFCC) 0 引 言 语音特征在说话人识别中占很重要的地位,好的 语音特征不仅能区分不同的说话人,而且对同一个说 话人由于情绪、生理等原因产生的语音变化,以及对 环境噪声都具有一定的鲁棒性。寻找具有良好性能 的特征及其提取算法是提高识别系统性能的根本途 径之一 。目前,比较常用的语音特征有基音、共振 性能。然而增加特征向量的维数会带来很大的问题, 比如使用高维特征的分类器需要更多的参数来刻画 说话人模型,这意味着需要更大的存储空间,增加了 系统的空间复杂度。同时,这将不可避免地增加后续 计算的时间,使得实时应用变得更加困难和昂贵,增 加了系统的时间复杂度。此外,还需要更多的语音数 据来训练分类器,否则就会因训练语料的不足,导致 系统识别率的下降。然而增加语料,就意味着需要用 户说更长时间的话,这将降低系统的用户友好性。另 峰、LPC及LPCC、MFCC、PLP等参数。许多文献 通过综合运用加权、微分、组合等方法,对这些特征参 数进行二次特征提取,在一定程度上提高了系统识别 外实验表明,目前的语音特征,包含了说话人特征、语 义特征、情感特征,还没有有效的方法将特征分解,也 收稿13期:2013-03-21 基金项目:江苏省自然科学基金资助项目(BK2009059);理工大学预研基金资助项目(2009TX08) 作者简介:陈觉之(1981一),男,湖南隆回人,海军指挥学院信息系讲师,硕士,研究方向:信息对抗,信息处理;张贵荣 (1979一),男,江苏南通人,中国人民92601计量站工程师,硕士,研究方向:说话人识别,计量技术;周宇欢 (1980一),男,湖南湘潭人,理工大学指挥信息系统学院博士后,研究方向:语音识别,说话人识别,信号处理。 2013年第6期 陈觉之等:基于CCA和PCA的说话人特征降维研究 17 就是说特征中存在冗余性,因此人们希望能用较少的 几个综合指标(低维向量)来表示高维原始特征。 ( )。要使u与v两者的相关程度达到最大, 关键问题是求出仅与B,并且分别利用其构成典型变 量如下: u=x V=Yp 本文结合典型相关分析(Canonical Correlation A. nalysis,CCA) 和主成分分析(Principal Compo— nents Analysis,PCA)¨ 两种方法,对基于声道模型 (1) (2) 的LPC特征和基于听觉模型的MFCC特征进行特征降 维,在特征维数较低的情况下,获得较优的系幺壳. 能。 显然,U与v的均值为0,方差分别为: Var(u): d,X,X n 1 CCA与PCA联合的特征降维方法 特征维数的大小对基于GMM模型的说话人识 (3) Var(v)=lP Y Yp (4) 别系统影响很大,在用传统方法提取特征后,对提取 的不同特征进行特征融合和降维,可以提高计算速度 和降低误识率。基于CCA和PCA的说话人识别系 统分为3步: (1)提取MFCC和LPC特征,用CCA对这两组 特征进行融合; (2)用PCA对融合后的混合特征进一步降维; (3)基于GMM模型的说话人识别。 1.1基于CCA的特征融合 在说话人特征中,有两类特征比较常用,一类是 基于声道模型的LPC及LPCC特征,一类是基于听觉 模型的MFCC特征。这两类特征从不同的角度提取 语音特征,具有一定的互补性,简单地将其组合虽然 能一定程度提升识别性能,但也带来了过高的系统消 耗,并且这两种特征的分量之间都含有冗余信息,使 得有效的降维成为可能。因此利用典型相关分析的 方法,分析这两类特征之间的相互关系,达到融合特 征的目的。 CCA是一种分析两个变量场或两组随机变量之 间线性密切程度的统计方法,其目的在于:对给定的 两组随机变量,寻找适当的线性变换将其转化为少数 几对典型变量。 假设由相同的n个样本提取出两组向量,分别记 为:X=[x1,x2,…,xp]∈R ,Y=[Y1,y2,…,yq]E Rn× , 由此两组向量可以构成一个n×(P+q)维的数据矩 阵,记为:Z=[X ,Y ] x(p 。CCA的目标是分别 从两组向量提取典型变量,具体来讲,由x提取一个 典型变量U,使其为X ,X ….,x。的线性组合。同 理,由Y提取一个典型变量v,使其为Y ,Y ….,Y。 的线性组合。在此过程中,需要U与v之间的相关程 度最大,以便能够大致上反映出x与Y的相关性。 设向量均已标准化,即Z中每列的均值为0,方 差为1。Z的协方差矩阵与其相关系数矩阵相等,记 为:V(Z)= n V(Z)=1(11 、XYY tX Y J 一 协方差为: Cov(u,v)= n X Yp (5) CCA可以表述为一个优化问题的解,如下: max<u,v>=ot X Yp d X x =1,p'y YB=1 (6) 对于式(6)进行求解,定义Lagrange函数如下: L=0l X Yp一 1(仪 X x仪一1)一 2(p Y Yp一1) (7) 其中, l与 2为Lagrange因子。 通过求解式(7),可得: V五 V21V V 2p=入 p (8) 其中 =2h ,当 最大时,两个典型变量之间的相关 程度便最大,由式(8)可知,入 为V V V V。:的最 大特征值,B为其对应的特征向量。同理可得,入 为 V V V V 的最大特征值,仪为其对应的特征向 量。 1.2基于PCA的特征降维 PCA是一种在均方误差最小意义上的最优的线 性降维方法。通过把原始特征向量向更小的子空间 投影,PCA达到了降维和去冗余的效果。因此,经过 PCA降维,损失的特征信息最少,在保证识别性能的 同时,后续阶段的计算开销将会大大减少。 假设观测指标共有P个,分别为x ,X ….,X。, 用线性组合的方法将这些指标综合为一个指标,因 此,可表示为: Y= Tx= lx1+OL2x2+…+ pxp (9) 当各指标组合的系数不同,就得到不同的综合指 标。为了避免所构造的综合指标之间信息的重叠,可 以限定指标彼此之间不相关,并且定义其中反映原始 观测指标的变动程度最大的综合指标为第一主成分, 依此类推,即以反映原始观测指标变动程度的大小顺 序排列,第k个综合指标就称为是原始观测指标的第 k个主成分。通常用主成分的方差来代表其贡献率, 一般第一主成分的方差最大,以后依次减少,将前r 个主成分的方差求和,与总方差相比称为这r个主成 分的累积贡献率。在实际应用中,会根据累积贡献率 18 计算机与 现代化 2013年第6期 选取不同数量的主成分,通常要求累积贡献率不低于 85%。 本文进行闭集的说话人辨认实验,并取错识率为 最终系统的评价标准。 作为对比,还同时仿真了仅进行CCA降维、PCA 降维或手动降维时的情况。仅进行手动降维就是从 原始的29维特征中选取部分特征作为训练和识别时 1.3 CCA与PCA联合的特征降维流程 高斯混合模型(GMM)简单、有效,具有一定的鲁 棒性,成为当前说话人识别的主流技术。特征维数对 GMM的计算时间和存储空间的影响很大,其训练的 计算复杂度为: 0(L半d )+0(d )+O(d木M)+0(I木L木d术M)+ 0(I¥L M ) (1O) 其中:d为特征维数,L为语音帧数,M为GMM的混 合度,I为GMM模型训练时的迭代次数。 而测试的计算复杂度为: 0(L d )+0(L d M) (11) 可见,特征维数d对于存储空间和计算时间的影 响非常大。如果能降低特征的维数,就能大幅降低计 算复杂度从而提高识别系统的计算效率。 如果将MFCC和LPC特征简单连接后直接进行 PCA降维,效果并不会太好。因为这两类特征是从 不同模型推导出来,两者相关性不大,直接进行PCA 降维,会导致需要较高的特征维数才能使累积贡献率 达到既定要求;而经过CCA融合的特征,其相关性会 增加,从而可以使PCA降维的维数更低,也就是说反 映类别差异的信息更集中。为此,本文在基于GMM 模型的说话人识别系统上,将CCA与CPA联合起来 利用,其流程如图1所示。 图1 基于CCA和PCA的特征降维说话人识别流程图 该流程的基本思想就是先用CCA融合基于声道 模型的LPC特征和基于听觉模型的MFCC特征,提 升这两类不同特征的相关性;然后用PCA进一步去 除冗余特征,以降低有效特征的维数。 2仿真实验 为了验证本文提出的流程在特征降维上的优势, 笔者进行了仿真实验。实验的硬件环境为联想昭阳 E390G-T2450,CPU为2.OGHz,软件环境为MAT. LAB2OO8a;实验的语音数据库是TIMIT,选用其中50 人,每个人有20句语音,长度均为2秒。训练和识别 分别选10句语音。所有的语音均为16000Hz采样, 16位精度,原始特征为13维MFCC和16维LPC特 征,帧长和帧移均为16ms。 的特征参数,其实验结果如表1所示。 表1仅手动降维的误识率 特征维数 语句 4 8 12 16 20 22 24 l 0.73 o.532 o.528 o.416 o.432 o.426 o.458 2 o.706 o.45 O.33 0.218 o.232 O.2o6 O.2 3 o.614 o.378 o.278 O.136 o.122 O.118 o.126 4 o.544 O.312 o.174 0.116 o.126 0.114 o.084 5 o.556 o.274 O.14 o.082 o.084 O.O72 O.O72 6 o.506 o.282 0.124 O.O78 o.o64 o.084 0.07 7 O.52 o.226 o.1O2 o.068 o.044 o.o44 o.054 8 o.554 o.228 o.086 o.062 o.044 o.046 o.028 9 o.546 O.21 o.086 o.036 O.O42 o.032 o.026 lO o.548 O.19 o.062 o.034 o.028 o.026 o.028 表1中第一列表示训练时所使用的训练语句数, 从上到下分别是1到l0句;第二行是训练和测试时 特征维数,从左到右分别为4到24维。从表1可以 看出,随着训练语句和特征维数的增加,误识率不断 降低,在22维时达到较优的性能。另一方面,可以看 到,并不是特征维数越高,其误识率就越低,由表1可 以看出,当特征维数超过22维后,误识率甚至会略有 增加。 表2显示了仅通过CCA特征融合和降维的测试 结果,实验显示,CCA的降维较手动降维系统性能有 所提高,虽然也是在22维达到较优的误识率,但误识 率的大小较手动降维而言有所降低。 表2仅CCA降维的误识率 语句 特征维数 4 8 12 16 20 22 24 1 O.77 0.536 o.464 0.448 O.38 0.514 o.428 2 0.7O8 O.448 0.316 O.22 O.242 O.2o4 o.196 3 o.692 o.434 0.26 0.144 0.11 O.11 0.144 4 O.652 0.336 0.19 0.142 o.082 0.08 O.O92 5 0.626 0.326 0.196 0.138 O.06 0.078 0.O72 6 0.614 0.29 O.164 0.126 O.O62 0.O78 0.054 7 O.6 O.264 o.162 O.1 O.O58 0.048 0.032 8 o.624 0.274 o.122 0.044 o.04 0.034 o.032 9 0.598 0.244 0.102 o.054 0.048 o.034 0.O24 lO 0.616 O.234 o.084 O.O42 o.028 O.O22 o.022 表3显示了通过PCA特征降维的测试结果,由 2013年第6期 陈觉之等:基于CCA和PCA的说话人特征降维研究 19 表3可以看到,PCA的降维效果较前两种方法有明显 的优势,在16维时,就已经达到了较优的识别性能。 表3仅PCA降维误识率 语句 特征维数 4 6 8 10 12 14 16 1 0.704 0.478 O.37 O.32 0.364 0.34 O.37 2 0.692 0.394 0.282 0.252 0.218 0.216 0.168 3 0.65 0.348 O.2O2 0.172 0.148 0.094 0.1 4 0.64 0.344 0.196 O.1l8 0.104 0.O86 0.088 5 0.5l8 0.33 0.16 0.126 O.1 0.066 0.062 6 0.474 0.298 0.146 O.O96 0.084 0.064 0.046 7 0.458 0.268 0.138 0.098 0.056 0.032 0.04 8 0.422 0.252 O.11 0.084 0.056 0.036 0.034 9 0.442 O.27 0.098 0.068 0.O48 0.026 O.O22 10 0.484 0.264 O.1o4 0.054 0.034 0.032 0.024 表4显示了按照图1的流程进行降维的误识率 情况。 表4 CCA与PCA联合降维的误识率 特征维数 语句 4 6 8 10 12 13 14 l6 1 0.58 O.56 0.47 0.392 0.354 0.354 0.424 0.366 2 0.512 0.404 0.298 0.276 O.244 O.2o4 0.188 0.19 3 0.422 O.36 0.208 O.17 0.156 0.102 0.132 O.116 4 0.366 0.232 O.17 0.128 0.O9 0.126 0.112 0.O8 5 0.322 O.23 0.146 0.114 0.074 0.o6 0.056 0.074 6 0.348 0.208 0.158 0.O8 O.08 0.062 O.O5 0.066 7 0.338 0.168 0.14 0.072 0.074 0.032 0.034 0.041 8 O.28 0.166 0.066 0.066 0.044 O.O3 0.028 O.39 9 0.266 0.126 0.062 0.O5 0.036 0.038 0.034 0.036 10 0.288 0.126 O.O68 0.048 O.O3 0.018 O.O2O 0.024 对比表3和表4可以看出,经过CCA将MFCC 和LPC两类特征融合后,PCA降维到13维时,系统 的误识率就达到最低的1.8%,这说明经过图1所示 的CCA与PCA联合的特征降维后,特征信息更加集 中在前几维主成分中,从而有效减少了数据的特征维 数。 3 结束语 特征的融合和选择对说话人识别系统有很大的 影响,本文提出了利用CCA对MFCC和LPC特征进 行融合后再利用PCA对融合后的特征进一步降维的 方法。理论上,CCA能有效融合不同特征,PCA能有 效去除冗余特征,若这两类降维方法相结合,可以比 传统的仅单独使用CCA降维、PCA降维或手动降维 方式的降维效果更佳。仿真实验表明,若仅单独采用 CCA、PCA或手动降维,误识率要达到2.5%左右,对 应的降维维数分别为22、16和22;而用本文提出的 图1所示CCA与PCA联合降维的方法,在PCA降维 到13维时可达到1.8%的误识率。由于该方法有效 地减少了数据的特征维数,根据式(1O)与式(11)可 知,该方法能大幅降低说话人识别的计算复杂度,提 高了识别系统的运行效率。 参考文献: [1]Pullella D,Kuhne M,Tognefi R.Robust speaker identiif— cation using combined feature selection and missing data recognition[C]//2008 IEEE International Conference on Acoustics,Speech,and Signal Processing.Las Vegas, NV,USA:IEEE,2008:4833-4836. [2] Avci Engin.A new optimum feature extraction and classiif・ cation method for speaker recognition:GWPNN[J].Ex— pert Systems with Applications,2007,32(2):485-498. [3] 姚志强.说话人识别中提高GMM性能方法的研究 [D].合肥:中国科学技术大学,2006. [4] 赵力.语音信号处理[M].北京:机械工业出版社, 2002. [5]吴朝晖,杨莹春.说话人识别模型与方法[M].北京: 清华大学出版社,2009. [6]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出 版社,2000. [7] 刘明辉.基于GMM和SVM的文本无关的说话人确认 方法研究[D].合肥:中国科学技术大学,2007. [8]刘幺和,宋庭新.语音识别与控制应用技术[M].北 京:科学出版社,2008. [9]杨大利,徐明星,吴文虎.语音识别特征参数选择方法 研究[J].计算机研究与发展,2003,40(7):963-969. [10]王金明,张雄伟.说话者识别系统中语音特征参数的研 究与仿真[J].系统仿真学报,2003,15(9):1276-1278. [11]Sun Quan—sen,Zeng Sheng—gen,Wang Ping—an,et a1.The theory of canonical correlation analysis and its application to feature fusion[J].Chinese Journal of Computers,2005, 28(9):1524—1533. [12]杨俊英,杨洋,唐龙妹,等.典型相关分析[J].临床荟 萃,2006,21(1):52—53. [13]Min-Seok Kim,Ha-Jin Yu,Keun—Chang Kwak,et 1a.Ro— bust text.independent speaker identiifcation using hybrid PCA&LDA『C]//Mexican International Conference on Artiifcila Intelligence.Apizaco,Mexico:IEEE,2006: 1067.1074. [14]Liu C.Gabor—based kernel PCA with fractional power poly— nomila models for face recognition[J].IEEE Trans.,Pat— tern Analysis and Machine Intelligence,2004,26(5):573— 58】.