更全的杂志信息网

基于逆梅尔对数频谱系数的回放语音检测算法

更新时间:2016-07-05

1 引言

说话人识别技术[1]以其自身独特的优势,诸如语音获取方便、使用者接受度高、说话人系统算法复杂度低等优点,在司法、金融、生活等领域得到了广泛应用。同时,说话人识别技术的安全性也成为亟待解决的问题。如何防止仿冒语音的攻击已成为研究的重点。

根据攻击手段的不同,仿冒语音主要分为两类:一是模仿特定说话人的声音进行攻击,称为说话人仿冒攻击;二是通过专业的设备和技术仿冒说话人的声音[2,3](如合成语音、拼接语音、回放语音等)。对于第一种攻击方式,现有的说话人识别技术已经能够有效地检测。而对于第二种攻击方式,目前还没有比较成熟有效的手段能够完全检测出来。在实际场景中,由于合成、拼接语音需要比较专业的技术支持,而回放语音相对来说操作简单,便于仿冒,已经成为不法分子最善用的攻击手段[4]。回放语音的产生过程如图1所示。

图1 回放语音产生过程

由图1可知,回放语音是真实地来源于说话人本人的声音,相较于其他仿冒语音来说,对说话人识别系统威胁更大。与原始语音相比,回放语音多经历了偷录设备的录制和回放设备的播放等过程,因此会不可避免地引入设备噪声和设备编码、解码的失真以及环境噪声等,使得回放语音和原始语音产生了细微的差异。目前,针对回放语音检测问题,主要分为以下两类:一种是基于语音随机性的检测算法,如 Shang等人[5,6]利用语音产生的随机性,提出了一种检测待测语音和合法语音在峰值图上的相似度的算法,此方法只能够应用于文本相关的声纹认证系统;另一种是基于语音信道的检测算法,如张利鹏等人[7]通过探究回放语音产生的机理,对语音的静音段信道进行建模,提出了一种基于语音静音段信道差异的回放语音检测算法,该算法由于静音段幅度很小,容易受到噪声的污染,因此很难建立精确的信道模型。王志峰等人[8]分析了回放语音产生过程中由不同设备引入的信道噪声,提出了一种基于信道模式噪声的录音回放检测算法。该方法解决了文本相关问题,但实验过程中只涉及一种录音设备和回放设备,存在实验设备单一的问题。

通过分析原始语音和回放语音的语谱图发现,在高频区域原始语音和回放语音有显著的差异。而传统的 MFCC(Mel-frequency cepstral coefficient,Mel倒谱系数)特征提取使用的 Mel滤波器由于低频分辨率高、高频分辨率低的特点,使得原始语音和回放语音在高频区的差异性削弱,从而不利于人们对回放语音的检测。其次在分析 MFCC特征参数时,经过实验发现,使用MFCC提取过程中去离散余弦变换(discrete cosine transform,DCT)前的梅尔对数频谱系数(log Mel-frequency spectral coefficient,MFSC)在回放语音的检测上有更好的检测效果。

基于上述分析,本文提出了一种基于逆Mel滤波器的梅尔对数频谱(log inverse Mel-frequency spectral coefficient,I-MFSC)的算法,逆Mel滤波器的设计是由Mel滤波器逆置得到的,表现为高频区域频谱分辨率高、低频区域分辨率低的特点,这样使得高频区回放语音和原始语音的差异性会更加显著地显示出来。实验结果表明,在回放语音的检测上I-MFSC有较好的检测效果。将本文提出的回放语音检测方法加载到目前主流的 GMM-UBM 说话人识别系统中后,系统安全性能有了显著的提高。

2 高频区回放语音和原始语音差异分析

尽管现有的偷录和回放设备都有着良好性能,能够做到较小的失真录制和高保真的回放。但原始语音和回放语音仍会存在一定的差别。本文从语谱图[9]着手,考究了原始语音和回放语音在频谱上的差异性,如图2和图3所示,实验语音是由Aigo R6620采集的一段4 s的语音,语音内容为“芝麻开门,我是土豪,千里共婵娟”。其中图(a)代表原始语音的语谱图。图(b)、图(c)、图(d)分别对应偷录设备为iPhone6、Mi4以及Sony PX440的语谱图。图2使用的回放设备为Huawei AM08,而图3对应的回放设备为Philips DTM3115。

主要教学内容:针对某一具体装配对象进行系统研究,完成装配流程设计、视频采集、达宝易软件分析、标准作业指导书制订等,加强培养学生的实践应用能力。教学地点:实验室;教学课时:1周。

图2 原始录制和回放语音的语谱图(回放设备:Huawei AM08)

图3 原始录制和回放语音的语谱图(回放设备:Philips DTM3115)

皮肤在受到热力作用后,其损伤的程度与热源温度和接触时间密切相关。一般认为,造成正常人体皮肤烧伤的温度阈值为45℃。由于新生儿皮肤薄而不耐磨,体表短时间(30 min)接触低热源(40.2℃)也可造成Ⅲ度烧伤[1]。新生儿烧伤发生率低,感染是新生儿烧伤的主要并发症和死因,创面感染是脓毒血症的主要来源。于2012年收治新生儿热水烫伤1例,患儿Ⅲ度烧伤两处(合计面积6%)经换药治愈,但1年后观察烧伤局部瘢痕挛缩严重,报道如下。

3 基于I-MFSC回放语音检测算法

3.1 MFCC特征提取过程

在说话人识别中,MFCC因能够较好地模拟人耳听觉系统的感知能力被广泛应用。图 4为MFCC特征的提取过程。

图4 MFCC特征的提取过程

由表3可知,两种Mel对数频谱系数MFSC和I-MFSC的性能显著优于MFCC和I-MFCC。尽管MFSC对回放语音的检测率也有很优越的性能,但最好的检测结果仍然是I-MFSC,因此本文后续实验所使用的特征选择I-MFSC作为最后的特征参数。

xi(n),其中下标i表示分帧后的第i帧。然后对每帧语音信号xi(n)进行FFT得到各帧的线性频谱Xi(k),即:

其中, N表示傅里叶变换的点数;将得到的线性频谱Xi(k)经由Mel滤波器进行滤波生成Mel频谱,然后再对 Mel频谱计算对数能量得到对数频谱Si(m),即:

为了说明本文算法的有效性和适用性,分别构建了原始语音库和回放语音库。数据库的具体设置如下:语料库来源于863语料库[16];人员分布为10男6女;考虑到现实场景中说话人验证系统中的语音采集模块通常采用16 kHz的采样率,所以在实验中使用了与其采样率相同的设备Aigo R6620;而偷录和回放设备则选择了多款常见的高保真设备,设备的具体详情见表1。

其中,C(n)为L阶的MFCC,L通常取12~16。

3.2 基于逆Mel滤波器组的MFSC

传统的Mel滤波器组,在低频段带宽较窄,频谱分辨率相对较高。而高频段带宽较宽,频谱分辨率相对较低。因此在高频区域较宽的滤波器平滑了高频信息,削弱了不同频率带之间的差异,使得高频区域的部分信息丢失。而由第2.1节的分析可知,回放语音和原始语音在高频区域存在明显的差异,因此为了利用两种语音在高频区域的差异性,本文采用一种逆Mel滤波器组[10-12]的设计来提取本文特征参数。逆Mel滤波器组的设计如图5所示。

图5 逆Mel滤波器组的设计

逆Mel滤波器组是基于逆Mel刻度变换得到的,逆Mel刻度变换的物理频率和Mel频率的对应关系为:

其中, fI-Mel表示逆 Mel频率,fmax表示语音信号最大频率,f表示语音信号的物理频率。逆 Mel和Mel变换关系如图6所示。

实验库的构建环境为安静办公室,具体录音流程为:说话人按照语料库语料录音,并使用采集设备进行语音采集,通常将采集设备采集到的语音称为原始语音。与此同时,使用3种偷录设备同时录制说话人语音,并在同样的环境下,将偷录设备录制的语音经音响回放,并使用采集设备录制该回放的语音,将此种条件下采集的语音称为回放语音。数据集共有实验样本15 000个,其中原始语音样本2 400个,两种回放设备对应3种偷录设备共计有12 600个回放语音样本,所有样本详情见表2。

图6 逆Mel和Mel变换关系

此外,在 MFCC特征提取时,会将得到的Mel频谱取对数后再进行 DCT,得到最后的MFCC特征参数。这里的DCT有两种作用[13]:一是利用DCT后较强的能量集中特性,能够对数据进行压缩;二是由于 MFCC提取过程中使用的Mel滤波器之间是有重叠的,因此能量值之间具有很强的相关性,使用DCT可以达到去相关的目的。而 Mohamed等人[14]的研究表明,相较于MFCC特征,MFSC具有更高的相关性和维度,更适合于机器学习的建模方式。因此将DCT前的MFSC作为参数特征,在滤波器的设计上,采用逆Mel滤波器组,新得到的参数定义为I-MFSC。

3.3 特征构造与选择

I-MFSC的特征提取过程和MFCC相似,在第3.1节MFCC提取的基础上,将Mel滤波器组换成逆 Mel滤波器组,然后将去 DCT前的对数Mel频谱Si(m)作为本文算法的最后特征参数,最终得到本文的特征参数I-MFSC。

江卸(“卸”,《全宋诗》作“衔”)洞庭急,君山屹半川。别知江有国,大率水多仙。环绕八百里,洪蒙千万年。晚春桃正碧,南客晓浮船。(卷八桃花门)

为了更好地说明 I-MFSC特征的性能,分别对 Mel倒谱系数(MFCC)、Mel对数频谱系数(MFSC)、逆Mel倒谱系数(I-MFCC)和逆Mel对数频谱系数(I-MFSC)在均值上做了对比分析,图7分别为这4种特征系数在均值上的差异。

由图7可以看出,虽然MFCC和I-MFCC在某些特征维度上也体现了差异性,可以作为检测回放语音的特征,但相较于MFSC与I-MFSC两种,后者在原始语音和回放语音的检测上体现出了更好的性能。而尽管MFSC特征与I-MFSC特征都具有很好的检测性能,但是第4节后续的实验表明,本文提出的 I-MFSC特征参数略优于MFSC特征参数。

图7 4种特征均值分布

3.4 回放语音检测算法

实验分类器的选择是LibSVM[15],它是一种有监督的机器学习方法。在分类训练和测试时需要为每一条数据设置标签,这里将原始语音设置为正样本,标签设置为“Y”,回放语音设置为负样本,标签设置为“N”,LibSVM分类器其他参数均使用默认参数。

两种选择我都试过,情况很复杂。有时我选择了等,最后却等到几乎绝望也不见来第二辆;但第二辆立刻就出现的情况也是经常,而且人少,还有座位,很快就超过前面的车;有时我也选择不等,也许不久就看到后面追上的车把我们遥遥甩在后头,也许始终只有我们这辆在蹒跚缓行。

土壤中以下几种养分均处于亏缺状态,其缺乏程度为NH4+-N>S>Zn>P>K>Mn>Fe>B,其中的NH4+-N、S、Zn均有30%以上低于临界值,在推荐施肥应重点进行补充,以防植物缺素症的发生,而其余的缺乏元素可通过生产中逐步增加肥料进行矫正。台子村N素为作物生长的主要限制因子,P、K和有机质均处于中等水平,土壤有效钙含量均处于高水平梯度,土壤有效镁含量大多处于中等以上水平,存在少量的土壤低镁区;缺硫土壤所占比例占绝大多数。

将提取的矩阵特征(MFCC、MFSC、I-MFCC、I-MFSC)按帧求取均值,得到每一条语音的均值特征,并将每一条语音特征设置标签。在训练阶段,使用训练集训练模型参数。在测试时,根据训练阶段得到的模型参数对测试数据进行判别归类,然后根据分类结果和测试数据的已知标签比较,得出回放语音检测的准确率,具体流程如图8所示。

图8 回放语音检测流程

4 实验仿真及分析

4.1 实验设置

其中,M表示滤波器个数,m=1,2,…,M,这里M通常取 27~40。最后经离散余弦变换(DCT)得到L阶的MFCC:

技能作品大赛引领了高职院校教学内容的改革和创新。根据人才培养模式的需要,制定了符合企业实际和学生学习兴趣的教学内容。以“项目教学”、“任务驱动”、“情景教学”为抓手,实施课堂教学模式改革,全面提升教学效率。技能作品大赛引领了职业院校课程教学内容改革,促进了相关课程的建设,使教学计划和教学内容更贴近生产实际,有效推进理论教学和实践教学相结合,提高了学生的学习参与兴趣,培养了学生的职业素养,提高了学生的职业技能,同时也促进了职业院校专业建设的发展。

表1 设备的具体详情

类别 原始录制设备 偷录设备 回放设备Aigo R6620 iPhone6 Mi4 Sony PX440 Huawei AM08 Philips DTM3115语音格式 wav m4a mp3 mp3 — —参数 16 kHz 16 bit/s 44.1 kHz 64 kbit/s 44.1 kHz 128 kbit/s 44.1 kHz 192 kbit/s— —

4.2 实验结果与分析

现实场景中由于偷录设备的多种多样,回放语音检测算法能否对多种偷录设备和回放设备都有较好的检测结果是衡量算法有效性的关键所在。本节实验目的是检测本文提出的算法在不同设备之间交叉是否依然有较好结果。实验采用的样本见表 2,实验采用的特征是本文提出的I-MFSC特征,具体检测结果见表4。

本节主要检测MFCC、I-MFCC、MFSC以及I-MFSC这4种特征对回放语音检测性能影响。实验所用样本详情见表2。表3为不同特征的检测结果,TPR为真阳性率(true positive rate),FPR为假阳性率(false positive rate),ACC为正确检测率。

首先对语音信号 x(n)进行预处理,包括预加重、分帧和加窗,得到分帧后的语音信号

从图2和图3中可以看出,与图(a)的原始语音语谱图相比,3种偷录设备高频区域(6~8 kHz)的频率值均小于原始语音,其中图(c)、图(d)显示出了更大的差异性。这表明 Mi4以及 Sony PX440两种设备失真度更高。此外在4 kHz左右,原始语音和iPhone6以及Sony PX440语谱图频谱过渡相对平滑,而Mi4分界线较为明显,产生了跳变现象,探究后发现这和Mi4设备自身固有的设备性能有关。

4.2.2 不同设备之间的交叉实验对检测率的影响

4.2.1 不同特征的实验结果与分析

由实验结果可知,在不涉及交叉设备时,每种设备的检测率均达到了 100%。当 iPhone6和Sony PX440作为训练样本时,虽然检测效果有所下降,但检测效果依旧可观;当Mi4作为训练集样本时,检测效果不甚理想。由第2.1节的语谱图分析结论可知,这是因为受到Mi4设备本身特性的影响,对高频区有些许的抑制作用;但综合来看,本文提出的 I-MFSC特征在设备交叉的实验检测中具有良好的检测性能。

表2 原始语音和回放语音样本详情

语音 原始录制设备 回放设备 偷录设备 样本数/个原始语音 Aigo R6620 — — 2 400回放语音 Aigo R6620 Huawei AM08 iPhone6、Mi4、Sony PX440 6 300 Philips DTM3115 iPhone6、Mi4、Sony PX440 6 300

表3 不同特征的检测结果

特征Philips DTM3115 Huawei AM08 两种设备的交叉FPR TPR ACC FPR TPR ACC FPR TPR ACCMFCC 99.60% 1.30% 99.58% 96.90% 7.00% 96.92% 96.70% 16.90% 96.67%I-MFCC 99.90% 0.20% 99.92% 98.2% 3.70% 98.16% 97.30% 14.00% 97.29%MFSC 100% 0 100% 99.30% 0.20% 99.33% 99.70% 0.30% 99.67%I-MFSC 100% 0 100% 100% 0 100% 99.90% 0.90% 99.86%

表4 不同设备之间的交叉实验检测结果

测试集回放设备 偷录设备 Huawei AM08 Philips DTM3115 iPhone Mi Sony iPhone Mi Sony训练集 Huawei AM08 iPhone 100% 100% 100% 100% 100% 99.86%Mi 98.43% 100% 96.79% 97.86% 100% 82%Sony 100% 100% 100% 99.07% 99.50% 99.79%Philips DTM3115 iPhone 99.85% 100% 92.79% 100% 100% 99.85%Mi 96.70% 99% 77.29% 99.93% 100% 72.79%Sony 100% 99.14% 100% 100% 97.04% 100%

表5 噪声环境下实验检测结果

算法 纯净条件 30 dB噪声 25 dB噪声 20 dB噪声 15 dB噪声MFCC 96.67% 95.66% 90.89% 87.74% 85.71%I-MFCC 97.29% 96.57% 95.52% 90.89% 88.81%MFSC 99.67% 98.62% 98.23% 97.57% 96.57%I-MFSC 99.86% 99.35% 98.95% 98.21% 97.43%

4.2.3 噪声环境下几种特征的检测效果

张满春是要下决心全力营救沈小小的。他突然想起柴房的檐下有一个碗口大的马蜂窝。他乘人不备偷偷溜到了柴房,爬上了房顶抓了好几只大马蜂。随后又搭上了一根木头,顺着这根木头他就爬上了二楼,溜进了沈小小的闺房。

现实场景中偷录环境的多样性和复杂性也是影响回放语音检测性能的重要因素。考虑到声纹识别系统的实际应用场景,过高的噪声环境在声纹认证领域意义不大,且噪声环境特别大时,声纹系统会直接拒绝待测语音进入系统,因此本实验将回放语音和原始语音加上15~30 dB的高斯白噪声以检测本算法的顽健性。检测结果见表5。

花青素还能延缓脑神经衰老,对由糖尿病引起的毛细血管病也有防治作用,它在增强心肺功能的同时,还能预防老年痴呆。

由表5可以看出,噪声的引入对回放语音检测有一定的影响,当信噪比从30 dB降到15 dB时,回放语音的检测率总体呈下降趋势。但相对而言,本文提出的算法I-MFSC相较于其他3种特征,在噪音环境下表现出更好的性能。

施工过程中如果发生安全事故,对施工单位的打击将是毁灭性的。施工单位在注重经济效益的同时,还应当不断提升自身的管理意识,要意识到科学管理是提高经济利润的一项合理方式。施工单位在具体施工期间,应当对科学的管理方式进行应用,这一方面可以使工程的施工效率得到提升,另一方面要减少各种资源浪费。通过科学的管理方式,可以使施工人员的潜能得到激发,让工作人员可以将更多的精力投入到工程施工管理中,从而使管理意识得到进一步提升,降低各种安全事故发生的几率。施工单位是给排水工程建设的主体,在实际施工期间,要通过合理的科技手段,使工程施工管理水平能够得到进一步提高,从而使工程的施工质量可以得到提高。

4.2.4 对比试验

为检验本算法的有效性和适用性,将本文的算法以单独的模块形式加载到 GMM-UBM 说话人识别系统[17]中,加载回放语音检测模块的说话人识别系统如图9所示。

图9 加载回放语音检测模块的说话人识别系统

语音进入说话人识别系统后,说话人识别系统对语音进行第一次判别,当说话人识别系统判决为非法用户时,系统会直接拒绝该语音,不再进入回放语音检测模块。只有当说话人识别系统判决该语音来自于合法用户后,才会进行回放语音检测模块;如果回放语音检测模块判决为原始语音,则系统接受该用户请求,否则拒绝该用户请求。

此外,将本文算法同参考文献[4]和参考文献[5]提出的算法进行比较。参考文献[4]的算法采用短时能量法提取静音,并用谱减法进行去噪。采用12维MFCC和一阶差分ΔMFCC作为特征参数。而参考文献[5]的算法则采用高通滤波器进行去噪,提取6个统计特征及6阶Legendre多项式系数(共12维)作为信道模式噪声的特征参数。检测检测结果见表6,其中ACC表示检测的正确率,EER表示将检测模块加载到 GMM-UBM系统的等错误概率。

表6 对比实验检测结果

算法 ACC EER参考文献[4]算法 75.42% 25.45%参考文献[5]算法 83.23% 19.09%本文算法 99.86% 5.90%

由表6可知,本文提出的算法相较于参考文献[4]和参考文献[5]在性能上有很大的提升。最后将几种方法以单独的模块加载到说话人识别系统,加载回放语音检测模块前后的等错误概率如图 10所示。由图10可以看出,加载到GMM-UBM系统后,本文提出的算法更能有效地提高说话人识别系统对回放语音的抵抗能力。

图10 加载回放语音检测模块前后的等错误概率

5 结束语

本文利用原始语音在回放语音在高频区的差异,通过逆Mel滤波器和提取去DCT前的MFSC特征,提出了一种基于高频区 I-MFSC特征的回放语音检测算法。该算法能够有效地弥补现有算法中设备单一的问题。通过实验表明,本文算法能够有效地检测回放语音和原始语音,将本文算法加载到GMM-UBM说话人识别系统时,对说话人识别的性能有了很大的提高。现实场景中,偷录设备和回放设备种类繁多,高保真的设备层出不穷,因此今后的工作将进一步探索回放语音产生的机理以及回放语音和原始语音产生差异性的具体因素。

国际市场:国际磷酸二铵价格总体稳定,局部涨跌互现。需求方面,印度和巴基斯坦二铵需求基本饱和,中国价格承压下滑,印度针对中国货源价格已降至FOB 405美元/吨左右,暂无新单成交;埃塞俄比亚大单价格暂未确定,市场看空情绪较浓。价格方面,上周美国坦帕港FOB为428-430美元/吨,周环比低端上涨1美元/吨;突尼斯、摩洛哥FOB分别为454-455美元/吨、450-455美元/吨,周环比均持稳;波罗的海/黑海FOB 425-430美元/吨,周环比低端下滑5美元/吨。

参考文献:

[1]ZHU D, MA B, LI H.Speaker verification with feature-space MAPLR parameters[J].IEEE Transactions on Audio Speech &Language Processing, 2011, 19(3): 505-515.

[2]易克初, 胡征.一种应用矢量量化的语音合成新方法[J].电信科学, 1987(11): 1-6.YI K C, HU Z.A new speech synthesis method using vector quantization[J].Telecommunications Science, 1987(11): 1-6.

[3]郭弘.录音证据的真实性检验与研究[J].电信科学, 2010,26(Z2): 56-60.GUO H.Authenticity verification and research of recording evidence[J].Telecommunications Science, 2010, 26(Z2): 56-60.

[4]李璨, 王让定, 严迪群, 等.基于相位谱的翻录语音攻击检测算法[J].电信科学, 2017, 33(8): 145-154.LI C, WANG R D, YAN D Q, et al.Detection algorithm of riprap voice attack based on phase spectrum[J].Telecommunications Science, 2017, 33(8): 145-154.

[5]SHANG W, STEVENSON M.A playback attack detector for speaker verification systems[C]//IEEE International Symposium on Communications Control and Signal Processing (ISCCSP),March 12-14, 2008, St Julians, Malta.Piscataway: IEEE Press,2008: 1144-1149.

[6]SHANG W, STEVENSON M.Score normalization in playback attack detection[C]//IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), March 14-19, 2010, Dallas, USA.Piscataway: IEEE Press, 2010: 1678-1681.

[7]张利鹏, 曹犟, 徐明星.防止假冒者闯入说话人识别系统[J].清华大学学报(自然科学版), 2008, 48(S1): 699-703.ZHANG L P, CAO J, XU M X.Prevention of impostors entering speaker recognition systems[J].Journal of Tsinghua University (Science and Technology), 2008, 48(S1): 699-703.

[8]王志峰, 贺前华, 张雪源, 等.基于模式噪声的录音回放攻击检测[J].华南理工大学学报, 2011, 39(10): 7-12.WANG Z F, HE Q H, ZHANG X Y, et al.Channel pattern noise based playback detection algorithm speaker recognition[J].Journal of South China University of Technology (Natural Science Edition), 2011, 39(10): 7-12.

[9]李富强, 万红, 黄俊杰.基于MATLAB的语谱图显示与分析[J].微计算机信息, 2005(20): 172-174.LI F Q, WAN H, HUANG J J.The display and analysis of sonogram based on MATLAB[J].Control & Automation,2005(20): 172-174.

[10]BURILLO P, BUSTINCE H.Entropy on intuitionistic fuzzy sets and on interval-valued fuzzy sets[J].Fuzzy Sets & Systems,1996, 78(3): 305-316.

[11]项要杰, 杨俊安, 李晋徽, 等.一种适用于说话人识别的改进Mel滤波器[J].计算机工程, 2013(11): 214-217.XIANG Y J, YANG J A, LI J H, et al.An improved Mel-frequency filter for speaker recognition[J].Computer Engineering, 2013(11): 214-217.

[12]陶佰睿, 郭琴, 苗凤娟, 等.基于改进 Mel滤波器组的声纹特征提取SoC设计[J].微电子学, 2015(6): 785-788.TAO B R, GUO Q, MIAO F J, et al.SoC design of voiceprint features extraction based on improved Mel filter banks[J].Microelectronics, 2015(6): 785-788.

[13]胡永刚, 吴翊, 王洪志, 等.高维数据降维的 DCT变换[J].计算机工程与应用, 2006(32): 21-23.HU Y G, WU Y, WANG H Z, et al.Discrete cosine transform in data dimensionality reduction[J].Computer Engineering and Applications, 2006(32): 21-23.

[14]MOHAMED A.Deep neural network acoustic models for ASR[J].Doctoral, 2014.

[15]CHANG C C, LIN C J.LIBSVM: a library for support vector machines[J].ACM Transactions on Intelligent Systems &Technology, 2012, 2(3): 1-27.

[16]王天庆, 李爱军.连续汉语语音识别语料库的设计[C]//第六届全国现代语音学学术会议论文集, 2003年10月1日, 天津,中国.[出版地不详: 出版者不详], 2003: 1-4.WANG T Q, LI A J.The design of the continuous Chinese speech recognition corpus[C]//The Sixth National Conference on Modern Phonetics Learning, Oct 1, 2003, Tianjin, China.[S.l.:s.n.], 2003: 1-4.

[17]CHAKROBORTY S, ROY A, SAHA G.Improved closed set ttext-independent speaker identification by combining MFCC with evidence from flipped filter banks[J].International Journal of Signal Processing, 2007, 4(2): 114-122.

林朗,王让定,严迪群,李璨
《电信科学》 2018年第05期
《电信科学》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号