更全的杂志信息网

基于Gabor滤波的语音识别鲁棒性研究

更新时间:2009-03-28

0 引 言

语音识别系统的鲁棒性一直是语音识别领域研究的重点问题,提高语音识别鲁棒性的方法大致分为2类,一类是基于模型的鲁棒性改善,另一类是通过提取声学特征来提高鲁棒性。声学特征的优劣很大程度上决定了语音识别系统的鲁棒性,因此研究声学特征的提取对提高语音识别系统的抗噪能力有很大的价值。语音鲁棒特征又可以划分为基于统计特性的鲁棒特征和基于听觉机理的鲁棒特征这2大类。

短时修正的相干系数(SMCC)[1]、高斯超向量(GSV)[2]、自相关梅尔倒谱系数(AMFCC)[3]以及i-vector[4]为基于统计特征的几种常见统计鲁棒特征。SMCC和AMFCC常被用来抑制宽带噪音,但它们对于非平稳噪音的抵抗能力不足。GSV是一种基于GMM[5]的语音特征,它继承了高斯混合模型的鲁棒性,而且包含说话人发音个性统计信息,然而在信道畸变的环境噪声下它的鲁棒性不佳。i-vector在GSV的基线上降低了特征的维数,提高了识别的效率。与统计特性的特征不同,基于生物机理的声学特征提取尝试模拟生理器官对语音的感知来描述声学特征,常见的特征有LPCC[6]、MFCC[7]和GFCC[8]。LPCC是线性预测系数(LPC)的倒谱参数,可以较好反映声道特性,但对于频率特性的反映不符合实际。基于MEL谱[9]的MFCC特征考虑了人类听觉系统的基本听觉原理,如频率分辨率和强度感知,却对语音信号高频段的特性描述精度不足。GFCC特征,通过动态地模拟人耳基底膜来提取特征,很大程度上提升了识别的鲁棒性。毋庸置疑,上述特征的研究对于语音识别鲁棒性的提升作出了很大贡献,但是它们都基于特定的域进行特征提取,这导致局部特征的丢失。

针对上述工作的不足,本文尝试通过联合时域和频域来提取声学特征,提出一种利用Gabor滤波器[10]跨时域和频域提取声学特征的方法,并将高维GBFB特征映射到时域和频域不同的子空间中,从而消除噪音成分,保留鲁棒特征,经实验证明,GBFB特征在噪音环境下与常见的几种声学特征相比有更好的鲁棒性。

1 基于Gabor滤波的特征提取

Gabor特征提取是在加窗的Fourier[11]变换基础上实现的,通过Gabor变换可以跨时频域对特征信息进行提取,因此可以获取到更多有用的特征信息。

1.1 二维Gabor滤波器

一个二维Gabor滤波器是由复平面波和高斯窗函数的乘积构成的,二维Gabor滤波器可以同时在频域和时域提取局部化的特性,利用二维Gabor滤波器可以同时描述时域局部信息,其空间域描述如公式(1):

对新的特征矩阵Uu,v进行向量化,表示为:

实验1 在纯净语音环境下,测试GBFB特征的有效性,采用TIMIT语音库,该语音库共采集了50名说话人语音,其中男性说话人35名,女性说话人15名,从每名说话人语音中选择7句用于实验训练,3段用于实验测试。在GMM混合度不同的情况下,分别用LPCC、MFCC以及GBFB特征测试在干净语音环境下的识别率。

 

(1)

  

图1 二维Gabor函数时域实部

其中,n和k分别表示时域的水平和垂直方向,x=ncos θ+ksin θ,y=kcos θ-nsin θ,δ表示高斯窗函数的标准差,ω和θ表示中心调制频率和方位,exp (-w2σ2/2)表示直流分量,这个直流分量的存在可以抵抗外部环境对滤波的干扰。在时域中可以通过调节θ的值来改变方位,从而得到良好的方向特征;同样,可以通过改变w的值来改变频域的参数,当选定固定的w和θ参数时就可以构造出特定方向和频率上的模式图。如图1所示,w=3π/4、θ=0时,Gabor核函数在时域的实部部分。Gabor滤波器在时域与频域中都有很好的辨识度,通过选择不同的方位和频率就可以构造不同的滤波器,在不同的方位和尺度上提取需要的特征。

1.2 基于Gabor滤波器组声学特征提取

一个用于声学特征提取的二维Gabor函数定义如下:

 

(2)

其中,γ=kve决定了Gabor滤波器的方位和尺度,ε(n,k)表示经FFT[12]得到的声谱样本点,φ=u(π/k),kv=2-((v+2)/2)·π,可以通过改变u,v调整Gabor滤波器组的方位和尺度,如图2所示,本文中尺度和方向均取4,γ可以控制u、v。

  

图2 二维Gabor滤波器组

在确定的时域窗口下声谱x(n,k)=RNn×Nk可以用向量空间ζ∈RNn×Nk×Nu×Nv来表示,其中Nn×Nk表示时域和频域的坐标,Nu×Nv表示尺度和方位。通过将原始信号的声谱与4方向、4尺度组成的Gabor滤波器组进行卷积,得到16幅局部特征谱,采样时将其分为64个小块,每块取8个量级进行量化,最终形成512维,16幅一共构成8192维特征。当尺度和方位一定时,卷积过程可表示为公式(3):

Gu,v(n,k)=|X(n,k)·gu,v(n,k)|

同时,首届进口博览会的火爆让人们对第二届进博会充满了期待。相关负责人表示,200多家企业已经签署了参加第二届展会的协议,意向的协议展览面积达到3万平方米。第二届展会总体面积计划仍将保持30万平方米,展区分五个板块,有装备制造、消费、食品、健康、服务。展期与第一届基本一致,时间初步定在明年的11月5日到10日。

公司采用股份有限责任制,并根据公司发展特点,初期采取直线制管理。后期根据公司发展状况进行调整。公司所有权与经营权分离,实行总经理负责制。

(3)

为了去除冗余,保留对声学感知有用的特征信息,利用mel滤波器对Gu,v(n,k)进行滤波,滤波的表达式如公式(4):

 

(4)

其中,MELl(n)表示mel滤波器组,mel滤波器的最低频率和最高频率由Lt和Ht表示。

近年来,在“健康中国”战略下,受益技术驱动,响应分级诊疗政策,各大型公立医院纷纷加大智慧医疗与全民健康事业的深度融合力度,旨在进一步改善患者就医体验,促进服务效率提升的智慧化项目相继落地。

向量化,构成特征矩阵SQ

 

(5)

由于经Gabor滤波得到的维数很高,如果直接用于识别,将会大大影响识别的效率,因此需要对GBFB特征进行降维处理。本文采用分块PCA[13]算法对GBFB特征进行降维,将分解为p×q个j×k的子块矩阵,如公式(6):

 

(6)

如公式(7)所示,对于每一个子矩阵G只保留最大值,这样可将变换为一个p×q的矩阵,本文取p×q为4×4、16×16以及64×64进行识别率的对比。

Uu,v=[max ((Gjk)ij)]p×q

(7)

点评:这两张叠加的照片都是颜色浓重的照片,不好驾驭,但作者完成得不错,框架的照片可以不透明度再低一些。

UQ=[Q(U0,0),…,Q(Up,q)]

(8)

利用PCA将UQ投影到低维的子空间:

(2) 盾构隧道常见病害是各种复杂因素共同作用导致的结果,目前仅能定性地分析各因素对隧道沉降的影响,难以定量地进行评价。工程地质条件、运营期间列车长期作用、盾构隧道下穿施工或周边邻近区域施工是隧道各类常见病害的重要影响因素,同时施工工艺与质量、联络通道冻结法施工、隧道渗漏等因素对隧道沉降的影响也不容忽视。

P(UQ)=AT(UQ-μ)

(9)

其中,μ为UQ的均值,维数为M×1,M=p×q,AT为低维的映射矩阵,维数为M×d,d表示主成分个数,因此最终可以得到d×1维的GBFB特征,本文取d=81。将向量化后的特征投影到时域和频域不同的维度上,投影到不同维度上的语音信号的能量会集中到少数的特征分量上,将有用的特征保留到投影矩阵中,当噪音掺杂入干净的语音时,与干净语音特性一致的成分会被保留,噪声的能量会被削弱,最终得到抑制噪音的GBFB特征。

为了验证算法的有效性,本文通过2个实验进行测试,分别采用TIMIT[14]语音库和NOIZEUS[15]语音库。语音的采样率为16 kHz,采样精度为16 bits,选择基于3状态HMM[16]的上下文相关音素模型作为声学模型,在实验中先对语音信号进行预处理,再对每一帧语音提取GBFB、MFCC、GFCC、LPCC特征,其中选取GBFB的特征参数为81维,MFCC、GFCC、LPCC特征参数均取39维,用GMM作为分类器进行识别,混合度可选8、16、32。

天脊集团董事长、党委书记王强指出,作为中国硝酸磷型复合肥缔造者的天脊集团,广大天脊人以挺起民族复肥工业脊梁为己任,立足引进、消化、吸收、再创新,突出内涵挖潜提高竞争力和延伸产业链条提高附加值,对发展现代新型煤化工的方法途径,做出了积极有益的探索和实践,为祖国争了光,为化工添了彩。

  

图3 GBFB特征提取过程

1)对原始的语音信号做预处理,并通过FFT得到对应的声谱图。

2)利用二维的Gabor滤波器组对声谱进行卷积。

(3)校企合作,组建创业者联盟。创新创业教育成果转化是一个系统工程,需要多方参与配合,形成“一条链”服务。①医学院校应利用自身专业优势,建立创业实训基地,吸引广大校企合作建设;②企业通过与学院共同申报创新创业项目、共建研发平台,为医学生提供创新创业服务,也提升了企业内涵[11],实现“双赢”,共同促使医疗卫生事业向前发展;③各大高校创业者创立联盟,资源整合,利用实见习期间和假期,发现创新点并与社会对接,纳入企业风投做评估管理,亲自参与一些投资少、见效快、风险小的创业项目,增强创业自信,提高成果转化率。

3)将得到的Gu,v(n,k)通过mel滤波器组进行滤波,得到

4)将映射到不同的子空间进行降维,得到最终的GBFB特征。

2 实验设计及分析

2.1 实验介绍

通过以上的分析,得到如图3所示的GBFB特征提取的过程:

2.2 实验设置

f(n,k,ω,θ)=

实验2 首先对Gabor滤波器提取的原始特征与分块大小为16×16的GBFB特征在25 dB的噪声环境下进行识别率对比,观察PCA降维对GBFB特征的影响,然后在NOIZEUS语音库的White noise噪声环境下对分块为4×4、16×16以及64×64的GBFB特征的识别率进行对比,最后在Factory noise、White noise和Babble noise噪声环境下使用SOX[17]工具加入不同信噪比的噪音,对MFCC、LPCC、GFCC以及GBFB特征的鲁棒性进行对比。

四是对台合作成果丰硕,外事管理进一步加强。双方开展多轮事务性磋商,大陆向金门供水工程达成重要共识并取得积极进展。在第五届海峡论坛等平台下组织了两岸水利科技、多砂河川整治、水利发展政策等交流活动。积极贯彻落实中央关于进一步规范因公临时出国的意见和党政机关厉行节约反对浪费条例,出台水利部加强因公临时出国管理《实施细则》。举办外事联络员培训班,组织开展出国(境)团组出访报告评审工作。

2.3 实验结果

实验1的识别结果如图4所示。

2.5 线性关系考察 取混合对照品溶液,分别精密吸取对照品混合液0.5、1.0、1.5、2.0、2.5、3.0 μL注入液相色谱仪,按上述色谱条件测得峰面积。以进样量(μg)为横坐标(X),峰面积(A)为纵坐标(Y)绘制标准曲线。结果表明,大黄素-8-O-β-D-葡萄糖苷一次进样量在0.033~0.198 μg范围内与峰面积呈良好的线性关系,回归方程和相关系数为Y=9.8×105X-1 462,r=0.999 5;大黄素甲醚-8-O-β-D-葡萄糖苷进样量在0.024~0.144 μg范围内与峰面积呈良好的线性关系,回归方程和相关系数为:Y=6.4×105X-1 148,r=0.999 1。

  

图4 纯净语音的识别结果

从图4可以看出,在未加入噪音的环境下,3种声学特征识别的准确率随GMM混合度的增加而增加,随着混合度的增加,GBFB识别率的提升最大,综合来看GBFB的识别率比LPCC的识别率高,与MFCC接近,验证了基于Gabor滤波的GBFB特征的有效性。同时,从实验1的结果可以看出,GBFB在纯净语音环境下的识别率相较其他几种特征并没有明显的提升,这是由于Gabor滤波器在提取纯净语音特征时,将纯净语音中绝对值较小的成分当做噪音,在经过PCA投影后部分特征的系数被削减,因此导致了识别率的下降。

现在分析实验2的识别结果。如表1所示,经PCA降维后的GBFB特征的识别率高于原始Gabor滤波器提取的特征,说明通过PCA算法在缩减了特征维数的同时保留了信息的主要成分,生成了更好的鲁棒特征。不同分块的GBFB的识别率如图5所示,其中p、q大小为4×4时特征识别率较低,增加到16×16时识别率提升了13%,当取值增加到64×64时识别率再次下降,说明不同大小的分块对GBFB的识别率有很大影响,p、q的取值太小会导致语音信号主分量被削减,过大会导致特征的冗余过多。

SUnSAL算法[24]的提出为稀疏解混开辟了新的途径。然而,真实的稀疏度超出了l1稀疏正则化所能达到的范围,其解的稀疏性和稳健性并不好,这是由于光谱库中的端元数量与通常参与混合像元的组分数量之间的不平衡造成的[18]。针对该问题,为了更好地表征稀疏度,目前已涌现出一批较先进的方法,概括为2类,具体描述如下:

 

表1 PCA降维对识别率的影响 单位:%

  

特征类型WhiteBabbleFactoryGabor83.6689.0687.06Gabor+PCA79.6381.5382.25

  

图5 不同分块PCA下的识别率

对GBFB以及其他声学特征进行抗噪测试时选取分块16×16的GBFB特征,结果如表2和图6所示。在低信噪比的环境下,4种特征识别的准确率都较低,随着信噪比的增加,准确率都有提升,其中基于GBFB特征在6种不同信噪比语音环境下的识别率都高于MFCC、LPCC、GFCC。与鲁棒性较好的GFCC相比GBFB特征的准确率提高了5.35%,与MFCC特征相比提升了7.05%,比LPCC特征识别的基线低9 dB,说明了本文提出的GBFB特征可以增强噪声环境下语音识别的鲁棒性。

 

表2 不同环境下4种特征的识别率 单位:%

  

NoiseSNR/dBGBFBGFCCMFCCLPCCWhite2585.2882.2580.0377.752083.6678.6676.5665.531578.6773.7868.5953.631067.6965.6961.5648.59556.4052.4050.5740.65042.9342.6341.5636.68Babble2592.9591.1887.6781.412089.0683.0981.2670.731581.7876.9972.8661.111076.6970.6868.7457.45565.4064.3157.9052.56052.9349.8046.6039.73Factory2593.4589.9986.1277.502087.0680.2378.2262.501576.1868.8962.9850.051070.1963.6558.1545.12565.0253.9950.9943.45052.1345.5244.3535.39

  

(a) White噪声下的识别率

  

(b) Babble噪声下的识别率

  

(c) 工厂噪声下的识别率图6 不同噪声环境下的识别率

3 结束语

本文采用Gabor滤波器组来提取语音信号的鲁棒特征,采用分块PCA对特征降维,验证PCA降维对识别率的影响,并测试了不同分块大小的GBFB特征对识别率的影响,最后对GBFB、MFCC、LPCC、GFCC特征在多个噪声噪音环境下进行性能测试。从实验结果可以看出,基于Gabor滤波的GBFB特征在不同信噪比语音环境下的识别率都明显高于MFCC、LPCC和GFCC特征。说明了本文提出的GBFB特征可以更准确地反映语音信号在噪音环境下的特征,提升说话人识别在噪声环境下的识别率。

此外,从实验1的结果可以看出,由于GBFB特征在提取纯净语音声学特征时会误将绝对值较小的成分当做噪音处理,对干净语音有一定程度上的损伤,导致GBFB在纯净语音环境下的识别率相较其他几种特征并没有明显的提升,某些情况下甚至低于其他特征,下一步工作将研究GBFB特征在纯净语音环境下识别率提升的方法。

参考文献

[1] 罗仁泽,蒋涛,敬龙江,等. 一种低信噪比SMCC+系统快速同步算法[J]. 信号处理, 2005,21(3):236-239.

[2] 刘伟伟. 基于GSV-SVM的语种识别关键技术研究与实现[D]. 郑州:解放军信息工程大学, 2012.

[3] 赵彦平. 孤立词小词汇量抗噪声语音识别方法的研究[D]. 长春:吉林大学, 2006.

[4] Glembek O, Burget L, Matejka P, et al. Simplification and optimization of i-vector extraction[J]. IEEE International Conference on Acoustics, 2011,125(3):4516-4519.

[5] 陈强. 基于GMM的说话人识别系统研究与实现[D]. 武汉:武汉理工大学, 2010.

[6] Zbancioc M, Costin M. Using neural networks and LPCC to improve speech recognition[C]// International Symposium on Signals, Circuits and Systems(Vol 2). 2003:445.

[7] 蒋文建,韦岗. 基于掩蔽的噪声环境下语音识别新特征[J]. 声学学报, 2001(6):516-520.

[8] Islam M A. GFCC-based robust gender detection[C]// IEEE International Conference on Innovations in Science, Engineering and Technology. 2017:1-4.

[9] 王让定,柴佩琪. 语音倒谱特征的研究[J]. 计算机工程, 2003,29(13):31-33.

[10] 曹丽. 基于Gabor滤波器的人脸特征提取算法研究[D]. 沈阳:东北大学, 2008.

[11] 孙晓兵,保铮. 分数阶Fourier变换及其应用[J]. 电子学报, 1996(12):60-65.

[12] Pei Soo-chang, Ding Jian-jiun, Chang Ja-han. Efficient implementation of quaternion Fourier transform, convolution, and correlation by 2-D complex FFT[J]. IEEE Transactions on Signal Processing, 2001,49(11):2783-2797.

[13] Roweis S. EM algorithms for PCA and SPCA[C]// Proceedings of 1997 Conference on Advances in Neural Information Processing Systems. 1997:626-632.

[14] 林海波,王可佳. 一种新的听觉特征提取算法研究[J]. 南京邮电大学学报(自然科学版), 2017,37(2):27-32.

[15] 黄玲,李琳,王薇,等. 基于Sparse K-SVD学习字典的语音增强方法[J]. 厦门大学学报(自然科学版), 2014,53(1):36-40.

[16] Tokuda K, Masuko T, Miyazaki N, et al. Multi-space probability distribution HMM[J]. Ieice Transactions on Information & Systems, 2002,85(3):455-464.

[17] Mathew L R, Anselam A S, Pillai S S. Analysis of LD-CELP coder output with Sound eXchange and Praat software[C]// IEEE International Conference on Advanced Communication Control and Computing Technologies. 2015:1281-1285.

 
缑新科,徐高鹏
《计算机与现代化》 2018年第05期
《计算机与现代化》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号