更全的杂志信息网

基于降维MFCC的语音年龄估测

更新时间:2016-07-05

1 引言

从生理和心理的角度来分析,在人由婴幼儿期到老年期的生长过程中,说话人的发声器官,比如声道和声带,会随之发生生理变化[1],同时,由于所受教育、训练以及社会经验等因素对心理的影响,其说话方式也会有所改变。采用语音估测说话人的年龄具有一定的可行性,在现实生活的中其实就有明显的直观体验,人耳对于接收到的语音信号可以做出一定的判断,大致估测出说话人的性别和年龄,这就说明处于相仿年龄的说话人的语音信号中包含有相似的特征。

说话人年龄估测在现实应用中有着重要的意义,例如可以应用在公共服务场所的人机交互系统中,通过估测说话人的年龄判断说话人所属的特定人群,从而提供更具有个性化设置的人机交互服务,比如调大字体和放缓语速来方便老年和幼年人群的操作[1],提升用户的使用体验。

基于语音信息对说话人年龄的识别的研究面临着许多难题,首先,对人类全年龄段的语音信号的采集就比较困难[2],其次,说话人的语音特征个性多样,现有建模方法很难将所有相同年龄属性的说话人的特征包含到同一模型中,再者,说话人的语音与其身体健康状况也有很大关系,除此之外,语音信号中的噪音也对识别有着不可忽略的影响,因此识别说话人具体年龄的难度非常大,只能对其年龄进行估测。目前国内外对说话人的年龄估测研究较少,并且达到的估测精度和准确度都不高,最精确的估算方法的识别率在70%左右。在已有的估计方法中,通常都采用划分年龄段分组的方法,按照分组对说话人的语音建立模型。由于男女的说话特征差距也较大,为了更精确的建立模型提高识别精度,本课题将说话人分为男儿童、女儿童、男青年、女青年、男中年、女中年、男老年、女老年共八个分组。现有的估计方法大多采用梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCCs)作为识别特征参数,并建立高斯混合模型(Gaussian Mixture Model, GMM)或者支持向量机(Support Vector Machine, SVM)模型,利用电脑可以进行大量运算,快速且高效的建立模型,完成估测计算。然而目前多数物联网设备使用的操作平台,例如Android平台,由于受到硬件的限制,想要完成大量数据的快速运算并非易事,还会占用大量资源。本课题采用一种降维的MFCC的语音年龄估测方法,对八个分组的说话人建立GMM模型,在基本不影响识别率的前提下,提升计算速度,方便估测算法在物联网设备上的移植。

2 特征参数

说话人年龄估测类似于说话人识别,但二者存在区别。说话人识别是为了区分不同的说话人,注重对各个说话人的个性特征的提取,而说话人年龄估测则一方面需要寻找同一种年龄属性的说话人的语音共性,另一方面又要求取不同年龄属性所拥有的特性。MFCC是一种模拟人耳听觉频率的语音特征量,常用于说话人识别,也在说话人的年龄估测中有着较好的表现。人耳对不同频率的语音具有不同的灵敏度,研究表明,对于频率在1 kHz以下的声音,人耳感知能力与实际声音频率之间呈现线性关系,而对于1 kHz以上的声音,二者则呈现对数关系[3]。根据这一规律,人们提出Mel频率的概念,定义实际频率f与Mel频率fmel之间的转换关系如式(1)所示[4]

若施工单位采用潜孔锤冲击钻进工艺,有丰富的施工经验,确保采空区顶板不发生大的塌落,可采用潜孔锤出冲击孔到底。

(1)

本课题使用自己录制的语音作为语音库,在专业录音棚内录制,录音人数为80人,8个分组各有10人参与录音,录音内容由几段文学作品组成,采样频率8 kHz,16 bit量化位。由于录制环境噪声较少,基本可以忽略不计,在对语音的预处理中只进行了简单的一维滤波,采用Hamming窗进行加窗分帧,帧长32 ms,帧移10 ms,Mel滤波器采用中心频率在Mel频率域均匀分布的24阶带通滤波器。

图1 MFCC的提取步骤[3]

具体方法为:

(1)对语音信号s(n)预处理,再对处理后的时域信号x(n)的每一帧做快速傅里叶变换,实现信号由时域到频域的转换,得到幅度谱|X(k)|;

生态旅游资源开发如果不融入地域文化因素,只会停留于围绕资源作“白话文”的状态,所进行的也只是简单的旅游资源展示;在实践操作中不能从民族特色和文化传统的角度对产品深层次开发,使得产品仍然停留在初级观光产品的档次和水平;导致的结果则是黄河口所拥有的世界级的旅游资源对应着二流、三流的旅游产品,更成为不了精品。

GMM是用多个高斯分布的加权和来表示的[6],是一种多维的概率分布函数。常用的GMM模型估计方法为最大似然估计,即把待估计的参数看作固定未知的值,求出使样本出现概率最大的参数值作为该估计参数的估计值,对于GMM而言,以X={x1,x2,x3,…,xt}作为训练样本,GMM的似然公式可表示为公式(3)所示:

(2)将幅度谱|X(k)|通过Mel频率带通滤波器组,得到Mel频谱s(m);

(4)对所有的S(m)做离散余弦变换(Discrete Cosine Transform,DCT)得到MFCC参数c(i),具体如式(2)所示,其中D为MFCC的维数。

c(i)=

也许是因为从未在公车行驶途中与她对话过,再加上本身有些狼狈,我不知如何掌握说话的节奏,而且说话的音量始终压低。

在语音识别和说话人识别中,通常都要丢弃第零阶倒谱系数以归一化功率谱。研究表明,并不是所有的MFCC分量都对说话人识别有着贡献作用,各个特征分量对于识别的重要程度不尽相同,其中,最有用的说话人信息包含在MFCC分量C2C16之间[5]。虽然年龄估算与说话人识别存在一定差别,但是基于其原理有相似之处,不妨尝试使用C2到C16之间的这15个MFCC分量作为识别特征量,以此降维来减小计算量。

(2)

i=1,2,…,D

3 模型分析

近年来,各行各业掀起了一股“岗位练兵”热潮,煤炭行业也非常重视,各单位纷纷开展了多形式的“练兵”活动。但在岗位练兵活动的实际开展中,并不是所有的人都持赞成态度,有的人认为:为什么要搞这些活动?现在工作这么辛苦,哪有时间、哪有精力?其实不然,开展岗位练兵活动主要有以下几方面的意义:能弥补工作中存在的不足。培训是岗位练兵活动内容之一,对员工按照各自岗位的不同,进行不同的学习培训,有理论的,有实践的,通过培训,对员工业务素质会有很大的提 高,可以发现自身存在的不足,使员工意识到学习的重要性,并在以后的工作中对发现的问题及时进行学习、探讨和改进,达到“干什么、练什么、缺什么、补什么”的目的。

(3)计算每个Mel频率滤波器得到的Mel频谱s(m)的对数能量S(m);

(3)

其中λ是GMM的模型参数,由于p(xi|λ)是参数λ的非线性函数,很难直接求出p(xi|λ)的最大值,通常采用期望最大化算法(Expectation Maximization, EM)来估算得到。在EM算法中,赋予λ一个初始值,通过估算来得到一个新的值λ',经过不断重复迭代,即训练,可以使P(X|λ)越来越大,直至收敛停止时得到的λ'是模型参数的估计值,可以近似认为是需要求取的模型参数。在有N个分组时,首先收集各个分组不同说话人的语音信号并整合到一起,通过训练得到N个分组的模型λ1,λ2,λ3,…,λN。假设测试集为X={x1,x2,x3,…,xk},根据贝叶斯公式,每个分组模型λi的后验概率如式(4)所示。最终通过计算测试者对各个分组的后验概率,取概率最大者为判断结果。

(4)

4 实验与分析

传统MFCC的提取框图如图1所示。

首先,要建立八个分组的GMM模型。从每组10人中抽取5个人,将每个说话人的录音剪裁成10个小段,每小段20 s,从每个说话人裁剪好的语音中各抽取一段组成该组的训练集。训练集的语音在提取MFCC后,选取C2到C16之间的分量建立16阶、32阶和64阶这三种阶数的GMM模型。在测试时,将每组剩余的五人作为测试集,将每个人的语音分别切割成时长为1 s、2 s、3 s、4 s、5 s小段各10段,也提取降维MFCC参数,对各个小段语音进行年龄估测,最终对各个分组的正确率求取均值得到整体的正确估测率。为了对比降维MFCC的识别效果,本课题同时也采用普通MFCC作为特征参数进行了年龄估测,以便二者的识别率进行对比分析。根据以上的理论方法和基本流程,本课题最终得到了以下的结果。

表1 降维MFCC与普通MFCC年龄估测

时间降维MFCC普通MFCC1s2s3s4s5s1s2s3s4s5s16阶GMM0.5750.6040.6160.6320.6230.5910.6020.6190.6220.62332阶GMM0.5830.6110.6240.6320.6420.6230.6480.6580.6690.67664阶GMM0.5840.6160.6330.6380.6460.6160.6450.6510.6590.663

表1所示为各阶GMM模型的识别率,降维MFCC的识别率基本能够达到63%左右。为了更加直观的比较降维前后的估测率的变化,将普通MFCC的估测结果减去降维后的估测结果,具体如表2所示。

目前常用的说话人模型大致有:矢量量化方法(Vector Quantization, VQ),隐马尔科夫模型方法(Hidden Markov Model, HMM),GMM,SVM和人工神经网络(Artificial Neural Network, ANN)等等[6]。其中,SVM和ANN有较强的自组织能力和学习能力[4],计算量较大,VQ适用于使用小词汇范围的说话人识别,HMM对于关键词的识别效果较好,而GMM是目前最为流行的与文本无关的说话人识别模型[7]。本课题拟进行文本无关的语音年龄估测,因此选用GMM建立模型。

表2 降维前后识别率变化

时间1s2s3s4s5s16阶GMM-0.0160.0020.0030.010032阶GMM-0.040-0.037-0.034-0.037-0.03464阶GMM-0.032-0.029-0.018-0.021-0.017

从表2可以看出,在将MFCC的维数从24维降至15维后,除了16阶GMM在识别语音长度为2~3 s之间的降维后的识别率高于降维前,其余识别率均略有下降,大约只降低了2.0%~4.0%。高阶GMM模型的识别率虽然整体相对低阶GMM模型的识别率而言正确率更大,但在降维处理后的损失也更大,但是并没有GMM阶数与降维识别率损失之间呈现正比的趋势,因为64阶的GMM损失并没有比32阶GMM的更大。无论是以降维前还是降维后的MFCC作为特征值进行估测,时长更长的测试语音识别效果都普遍更好,并且在降维处理后的损失也较小。为了更加具体的分析,以16阶GMM为例,各个分组的估测结果如表3所示。

此时夜幕深邃。揽一缕秋风入怀,让它从我的脸庞边滑过,哪怕没有停留半刻,我也心满意足。不知不觉信步远离了喧闹。□

表3 16阶GMM模型的识别率

时间降维MFCC普通MFCC1s2s3s4s5s1s2s3s4s5s女儿童0.4920.5540.5920.6260.6220.5000.4980.5260.5440.524男儿童0.5200.5080.5160.5420.5340.5860.5900.6140.5900.594女青年0.6800.7120.7360.7440.7460.7500.7740.7840.8020.798男青年0.5460.5640.5660.5760.5780.5500.5520.5660.5740.572女中年0.2580.2840.2760.2900.2900.1700.1880.1960.2040.208男中年0.4560.4880.4920.5000.4820.3820.3820.4120.4120.422女老年0.9160.9580.9800.9840.9860.9880.9921.0001.0001.000男老年0.7300.7600.7720.7960.7980.8000.8360.8520.850.866均值0.5750.6040.6160.6320.6230.5910.6020.6190.6220.623

虽然普通MFCC的平均识别率略高于降维MFCC的识别率,但是从表3可以看出,普通MFCC各个分组的估测效果参差不齐,差距明显,例如女老年组的识别率几乎可以达到99%,比女中年组20%左右的识别率高出70%以上,这就意味着尽管某些分组的说话人识别率非常高,但是另外一些分组的说话人基本识别不了。在降维处理后,虽然原先识别率较高的分组的识别率则有所下降,但是原来识别率较低的分组识别率有所提高,例如原先识别率基本低于40%的男中年组在采用降维MFCC后,识别率提升至50%左右。可以认为降维处理能够降低各个分组识别率的方差,使得每个分组的正确估测的可能性更加趋向均匀。

5 总结

本课题针对文本无关说话人年龄段的估测,通过将MFCC经过简单的减少分量的办法,仅取用C2到C16之间的这15个MFCC分量进行降维处理,由于忽略掉了部分的特征细节,略微牺牲了估测准确率,但是操作简单,容易操作,不失为一种简化识别算法的思路。相对普通人群而言,本课题采集到的样本十分有限,数量远远不够。足够丰富的样本对估测准确率的提升将大有裨益,但是模型训练的计算量和对硬件资源的要求却会大大提升。相信在未来会有更加优化的算法以及优良的特征参数,能够在快速高效的情况下将说话人的年龄估测准确度进一步优化。

在立法制度逐渐完善的同时,备案审查工作也在有序推进,自2008年到2012年,全国人大常委会共收到各类审查建议361件,虽然报请审查的案件规模不大,但也在缓慢发展中[7]。整体来说,这个阶段的修宪虽然处于沉寂状态,宪法的其他适应机制在一定程度上有所发展,为新时代宪法适应性增强奠定了一定基础。

参考文献:

[1] SIMA R.Age recognition for spoken dialogue systems: do we need it?[C].INTERSPEECH 2009, Conference of the International Speech Communication Association, Brighton, United Kingdom, September,2009:1435-1438.

[2] 贺文锋.说话人性别识别与年龄估计的研究[D].广州:华南理工大学,2014.

[3] 张晶,范明,冯文全,等.基于MFCC参数的说话人特征提取算法的改进[J].电声技术,2009,33(9):61-64.

[4] 李梦超.基于说话人识别的特征参数提取改进算法的研究[D].南京:南京师范大学,2014.

[5] 甄斌,吴玺宏,刘志敏,等.语音识别和说话人识别中各倒谱分量的相对重要性[J].北京大学学报(自然科学版),2001,37(3):371-378.

[6] 胡政权.说话人识别中语音参数提取方法的研究[D].南京:南京师范大学,2013.

[7] 邢玉娟.说话人特征提取和识别算法的研究[D].兰州:兰州理工大学,2009.

刘益嘉,彭云祯,李滨彬,陈雪勤
《电声技术》 2018年第02期
《电声技术》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号