更全的杂志信息网

基于深度学习的声纹识别方法研究

更新时间:2009-03-28

当今社会,数字化时代随之来临,大量的信息和数据充斥了生产和生活的各个角落,然而技术进步的同时,许多风险和安全问题也逐渐产生。首要是解决关于个人身份确认方面的问题,典型的几种认证方式,钥匙、密码、各种身份证件等所要求的技术水平层次较低、容易实现,但是也很容易丢失、泄露及破解,造成身份信息被冒用等状况。因此,生物识别技术应运而生,生物识别技术通过对个体独特的特征进行识别,实现对个人身份的认证。这些独特的特征即个体本身的生物特征,通常分为生理特征(指纹、静脉、面部、DNA、虹膜等)和行为特征(声音、打字习惯、字迹等),个体的生物特征因其独特性和稳定性,成为身份认证的依据,也决定了生物识别技术的安全性、稳定性和不可替代性。与其他的生物识别技术相比,声纹识别的主要优点在于采集成本低、容易,只需要一个麦克风即可,无论是手机、电脑,随时随地获取声音信号。而且与人脸识别相似,可以做到非故意提取,算法更简单。现如今,声纹识别已经遍及到人们生产生活的方方面面,在军事领域,军方可以在监听过程中,通过声纹识别系统识别出特定人员身份;在金融领域,银行可以通过电话等,远程进行身份认证和支付;在公安领域,警方可以根据电话录音等,判断犯罪嫌疑人身份;在安保领域,可以设置声音锁、门禁等。

声纹识别的第一项国际专利是在1983年提交的,由Michele Cavazza和Alberto Ciaramella在意大利CSELT[1]进行的电信研究工作,为将来的电信服务和最终客户提供基础,并通过网络提高降噪技术。2013年5月,巴克莱(Barclays Wealthw)宣布,在正常对话的30 s内,使用被动声纹识别来验证电话客户的身份[2]。这个系统是由语音识别公司Nuance公司开发的(2011年收购了Loquendo公司,将该公司从CSELT公司剥离出来运营语音技术),该公司是苹果Siri技术的幕后推手。巴克莱的私人银行部门是第一家将语音生物识别技术作为身份认证的金融服务公司。93%的客户用户认为该系统的速度、易用性和安全性都是“9 / 10”[3]。自此,Nuance将语音生物识别解决方案已部署在多个金融机构,包括Banco Santander、加拿大皇家银行、Tangerine Bank和Manulife[4]。2014年8月,GoVivaceinc部署了一种扬声器识别系统,该系统允许其电信行业客户通过仅使用一个语音记录,正向搜索数以百万计的发言者[5]。在刑事调查中也可用于说话者的识别,比如2014年处决的詹姆斯·弗利和史蒂芬·索特洛夫[6]。2016年2月,英国高街银行汇丰银行及其基于互联网的零售银行First Direct宣布,将为1 500万客户提供其生物识别银行软件,通过指纹或声音来访问在线和电话账户[7]

1 数据来源

本文所使用的数据库为TIMIT 语音数据库。此语料库是由麻省理工学院(MIT)、SRI国际(SRI)和德州仪器公司(TI)共同设计的,包括时间排列的正字法、语音和文字记录以及16位、16 kHz的语音波形文件。TIMIT语音库总共包含6 300句话,有630个发言者,每人10句话,这些发言者来自美国8个主要方言区。

拿罩袍和浴巾的女子是白云飞的妻子柳含烟,另一位是白云飞的妹妹白雪。柳含烟把罩袍和浴巾搁在石屏上就脱去衣靴袒露柔和动人却透着酸味的身体。她瞅了一眼反应迟钝的白雪道:“无论这里人要对我们怎样,我们又能怎么样?”白雪这才脱去身上的罗衫。

2 声纹识别

声纹识别(说话人识别)就是识别个人的声音特征即语音生物测定[8]。声纹识别和语音识别是有区别的,这两个术语经常被混淆。声纹识别识别的是说话者,可看做是一种身份验证,而语音识别这是对所述内容的识别。如果发言人具有某种身份,并且声音被用来验证这一身份,就称之为说话人验证或身份验证。另一方面,如果想要达到的是确定一个未知的发言人身份的目的,将一个发言人的声音与一个模板匹配,就称之为说话人辨认。在某种意义上,说话人验证是一种1:1的匹配,而说话人辨认则是一个1:N匹配,即声音与N个模板的比较。

每个声纹识别系统有两个阶段:注册和验证。在注册过程中,会记录声纹的声音,并且通常会抽取一些特征来形成语音打印、模板或模型。在验证阶段,将语音样本或“话语”与先前创建的语音打印比较。对于识别系统,与多个语音输出相比,语音识别是为了确定最佳匹配,而验证系统则比较单个声音输出的语音。基于相关过程,验证速度比识别快。声纹识别系统分为两类:文本依赖和文本独立。文本依赖:如果文本必须与注册和验证相同,这称为文本依赖识别。在一个文本相关的系统中,提示可以在所有的发言者(例如:一个通用的传递短语)中通用。此外,还可以使用共享密钥(例如:密码和pin)或基于知识的信息来创建多因素身份验证场景。文本无关的:文本独立的系统最常用于声纹的身份识别,因为他们几乎不需要声纹的任何合作。在此情况下,在注册和测试期间的文本是不同的。事实上,没有用户的配合,也可以实现注册,就像许多法医应用程序一样。由于文本无关的技术不能比较在注册和验证时所说的内容,验证应用程序也倾向于使用语音识别来确定用户在身份验证点上所说的内容。

3 声纹识别原理

3.1 语谱图

  

图1 ‘ta ta ta’语谱图Fig.1 Spectrogram of ‘ta ta ta’

通用背景模型(UBM)是一种独立于说话人的的GMM,从一组说话人中进行语音样本的训练,以代表一般的语音特征。使用一个特定于说话者的GMM从一个特定的登记说话者的语音样本进行训练,类似于一个未知的类比率测试。

由表7可得,区段Z2的可信度值最大,满足决策准则条件,则可判定故障最有可能发生在区段Z2,与实际情况相符。

3.2 GMM-UBM

由表2可见,回升状态网络算法得到识别率约为90%,相比较经典算法,也有部分提升。

高斯混合模型是由方程给出的M分量高斯密度的加权和:

 

其中xd维连续值数据向量(即测量或特征);ωi,i=1,…,M是混合权重,是组件高斯密度,每个分量密度是形式的d -变量,

 

其中μi为均值向量;∑i为协方差矩阵;混合权值满足约束条件

语谱图是声音或其他信号的频率频谱的视觉表征,因为它们随时间或其他变量而变化。语谱图可以用来识别语音,分析动物的各种叫声。它们广泛用于音乐、声纳、雷达和语音处理[9]、地震学等领域的发展。一位男性说“ta,ta,ta”的语谱图见图1。

语音样本可以在指定说话者的模型与UBM的匹配得分之间形成。UBM也可能是通过在地图参数估计中作为先验模型来训练指定说话人的模型。基于GMM-UBM的声纹识别系统见图2。

几年前,我赢得了《洛杉矶时报》夏季摄影比赛的冠军,并开始接触国际摄影记者。住在越南会安时,我开启了自己的个人项目,我觉得每个摄影师都需要有自己的拍摄项目。

  

图2 GMM-UBM声纹识别系统Fig.2 GMM-UBM voiceprint recognition system

3.3 MFCC

梅尔倒谱系数(MFCCs)是共同组成MFC的系数。它们是由一种音频剪辑(一种非线性的“光谱-频谱”)的一种“感知”表示形式派生出来的。在MFC中,频率条带在梅尔尺度上是相等的,这比在正常的倒谱仪中使用的间隔频率波段更接近人类听觉系统的响应。频率的扭曲使声音更好地表示,例如在音频压缩中。

4 深度学习

机器学习是最快速、最活跃的领域之一,而深度学习则代表着它真正的展现出来的优势。深度学习是一种机器学习,是人工智能的基础之一,它允许由多个处理层组成的计算模型来学习具有多级抽象的数据表示。这些方法极大地提高了语音识别、视觉对象识别、对象检测以及药物发现和基因组学等其他领域的先进水平。深度学习在大数据集中发现了复杂的结构,通过使用反向传播算法来说明机器应该如何改变其内部参数,这些参数用于从上一层的表示中计算每一层的表示。深度卷积网络在处理图像、视频、语音和音频方面带来了突破,而周期性的网络则对文本和语音等顺序数据进行了光照。像Siri和Cortana这样的系统,在一定程度上是通过深度学习来实现的。深度学习不是通过预先定义的方程来组织数据,而是建立了基本的数据参数,并通过使用多层处理识别模式训练计算机自己学习。

4.1 递归神经网络(RNN)

递归神经网络(RNN)是一种人工神经网络,在这种神经网络中,各单元之间的连接形成一个有向周期。这允许它显示动态的时间行为。与前馈神经网络不同,RNNs可以利用它们的内部存储器来处理任意输入序列[10-12]

回声状态网络(ESN)[13-14],是一个具有稀疏连接的隐藏层(典型的1%连通性)的递归神经网络。隐神经元的连通性和权值是固定和随机分配的。输出神经元的权重可以被学习,这样网络就可以(重新)产生特定的时间模式。这个网络的主要优势在于,尽管它的行为是非线性的,但在训练过程中唯一被修改的权重是将隐藏神经元与输出神经元连接起来的突触。因此,误差函数是关于参数向量的二次函数,它可以很容易地与线性系统相区别。

可以考虑非参数贝叶斯公式的输出层:①在输出权值上施加先验分布;②在给定训练数据的情况下,输出权值被排除在预测生成的范围内。该思想[15]得到了应用高斯先验的证明,得到了一个具有基于ESN驱动的核函数的高斯过程模型。此解决方案在几个基准测试中表现为可训练的(有限的)权重集。

4.2 卷积神经网络(CNN)

一个卷积神经网络(CNN)由一个或多个卷积层(通常是一个子采样步骤)组成,然后是一个或多个完全连接的层,就像标准的多层神经网络一样。CNN的架构设计的目的是利用输入图像的2D结构(或其他2D输入,如语音信号)。这是通过局部连接和绑定权重来实现的,然后采用某种形式的池,从而导致转换不变特性。CNNs的另一个好处是,比完全连接的网络和相同数量的隐藏单元更容易训练和拥有更少的参数。

5)将2τ+1个sigma点(χk+1|k)r(χk+1|k的第r列,r∈[1,2τ])依次代入转速观测方程(5)来预测观测值ek+1|k,进而计算测量均值协方差Pekek、状态协方差Pxkek和卡尔曼增益矩阵Kk+1,计算方法如下:

4.2.1 卷积层

卷积层是CNN的核心组成部分。该层的参数由一组可学习的过滤器(或内核)组成,它们有一个小的接受域,但可通过输入卷的全部深度进行扩展。在转发过程中,每个过滤器都是在输入卷的宽度和高度上进行卷积,在过滤器的条目和输入之间计算点积,并生成该过滤器的二维激活映射。因此,当网络在输入的某个空间位置检测到某种特定类型的特征时,就会学习过滤。

混合动力轿车的高压电池主要采用的类型为镍氢电池、高压锂电池(以三元锂电池为主)等,一般采用风冷,安装在汽车后排座椅下部(如凯美瑞)或后排座椅与后备箱之间的空腔内(如雅阁、君威等)。三款混合动力车用高压电池的类型及主要参数对比列于表2。

在深度维度上叠加所有过滤器的激活映射,形成卷积层的完整输出卷。因此,输出卷中的每一个条目都可以被解释为一个神经元的输出,该神经元在输入中看到一个小区域,并在同一个激活图中与神经元共享参数。

4.2.2 降采样层

CNNs的另一个重要组成是降采样层,这是一种由几个非线性的函数来实现合用,其中最大的一个是最大降采样层。它将输入图像分割成一组不重叠的矩形,对于每个这样的子区域,输出最大。相对于其他特征,特征的精确位置并不重要。降采样层的作用是逐步减小表示的空间大小,减少网络中参数的数量和计算量,从而控制过度拟合。在CNN架构的连续的卷积层之间定期插入一个降采样层是很常见的。这种操作提供了另一种形式的平移不变性。

4.2.3 全连接层

在几个卷积和最大降采样之后,神经网络中的高级推理是通过全连接层完成的。在一个全连接层中,神经元与上一层的所有激活都有联系,就像在普通的神经网络中所看到的那样。因此,它们的激活可以用矩阵乘法来计算,然后进行偏置偏移。

4.3 改进的深度学习模型

将降噪自编码和限制玻尔兹曼机结合形成一个新的模型见图3,模型排列可以分为两类。第一个类是DAE与RBM交叉分布,因此又可以分成两种,分别是以DAE为起始层或以RBM为起始层。第二类是分为两层,上层为DAE为一种,上层为RBM为另一种。运用此模型进行类似于原模型的微调和预训练,从而提高深度神经网络的性能。

[5] Speaker Identification[EB/OL]. The original,September 3, 2014.

  

图3 DAE-RBM深度学习混合模型Fig.3 DAE-RBM deep learning hybrid model

  

图4 GMM-UBM阶数对识别率影响Fig.4 Influence of GMM-UBM order on recognition rate

5 实验结果

5.1 实验一

本节实验从TIMIT语音库中选取300人作为训练样本,随机分别抽取100人,200人,300人作为测试样本。

[11] 孙佳婷.低码率音频质量客观评价算法研究[J].黑龙江大学,2017,8(2):80-87.

由图4可见,通过调整GMM-UBN的阶数,对声纹识别的准确性有积极影响,M=16时,识别的准确性最低,M=128时,识别的准确率最高,当阶数由32调整到64时,识别率变化最明显。

5.2 实验二

本节实验从TIMIT语音库中选取300人作为样本。随机抽取每人300张语谱图录音作为训练集,100作为测试集。每句话平均时长 3 s 左右。

实验步骤:①将原始语音为输入信号经过分帧加窗从而得到语谱图;②将语谱图作为原样本输入到卷积神经神经网络;③设置MFCC特征参数为13,GMM-UBM中阶数M=64。

得出的识别结果见表1[16]

由表1可见,经过CNN算法得到的识别率超过了90%,而传统的CNN-UBM算法识别率较低。

 

表1 CNN和经典方法识别率对比

 

Table 1 Comparison of recognition rates between CNN and classical methods

  

测试方法训练集测试集识别正确个数识别率/%CNN90000300002827094GMM⁃UBM90000300002370679

5.3 实验三

本节实验从TIMIT语音库中选取100人作为样本。随机抽取每人100组数据作为训练集,其中50组作为测试集。设置实验参数,ESN中|λ|max=0.9,N=150,SD=1,GMM-UBM中阶数M=64[17-18],最后得到的实验结果见表2。

 

表2 CNN和经典方法识别率对比

 

Table 2 Comparison of recognition rates between ESN and classical methods

  

测试方法训练网络测试网络识别正确个数识别率/%ESN100005000443689GMM⁃UBM100005000402881

高斯混合模型(GMM)是一种参数概率密度函数,表示为高斯分量密度的加权和。GMMs通常被用作生物特征系统中连续测量或特征的概率分布的参数模型,例如在说话人识别系统中的声道相关光谱特征。GMM参数使用迭代期望最大化算法(EM)的训练数据估计,或者从训练有素的先验模型中得到最大的后验(MAP)估计。

6 结 论

根据上述分析可以发现声纹识别的识别结果会受到GMM-UBM阶数的影响,且其具有积极作用,随着阶数的增多,识别结果越准确。但存在的问题是,较高的阶数会使GMM-UBM的算法更加复杂,加大计算难度,因此在使用经典方法进行声纹识别时,最好将阶数设置为64。并且,经过比较不难发现,传统的基于高斯混合模型的方法没有经过CNN和ESN的方法效果好,CNN的识别准确率又要高于ESN的识别率,说明所给出的基于卷积神经网络识别方法皆具有可行性,且CNN在声纹识别系统中的识别性能要优于ESN的识别性能。由于卷积神经网络在训练和参数设置方面有较高难度,需要大量实验支持。因此,最好在回升状态网络的基础上加以改进,以此种算法来提升声纹识别的准确率。

参考文献:

[1] Michele C, Alberto C. Device for speaker’s verification:US4752958[P],June 21, 1988.

[2] International Banking. Voice Biometric Technology in Banking|Barclays[EB/OL].Wealth.barclays.com,February 21, 2016.

巡检过程中除了检查记录仪表测量值外还需记录仪表的透光率,当透光率小于10%时,仪表就会出现低透光率报警,此时就需要校准透光率。

[4] Voice Biometrics for fast, secure authentication in your IVR and mobile apps[EB/OL]. Nuance. February 21, 2016.

需要注意的是思维导图的制作应当根据学期授课安排,围绕教学目标,紧扣教学大纲,根据学生实际情况,合理安排章节,突出教学的重点和难点,并充分挖掘无机化学与药学专业的紧密联系。

[6] Ewen MacAskill. Did ‘Jihadi John’ kill Steven Sotloff? | Media[EB/OL]. The Guardian.February 21, 2016.

课堂是语文教学的主阵地,与我们朝夕相处的课本,它是一座富矿,是一口深井,是提高学生语文素养的力量源泉。用足语文课本,开动脑筋,灵活处理好中华优秀传统文化的传承,有利于学生的健康发展,全面发展。

[7] Julia K. HSBC rolls out voice and touch ID security for bank customers | Business[EB/OL]. The Guardian, February 21, 2016.

[3] Matt W. Say goodbye to the pin: voice recognition takes over at Barclays Wealth[EB/OL].http://www.telegraph.co.uk/ June 5, 2013.

[8] Poddar A, Sahidullah M, Saha G.Speaker verification with short uterances: a review of challenges, trends and oportunities[J]. IET Biometrics .2017,10(3):1049.

[9] Flanagan J L. Speech analysis, synthesis and perception[J]. Springer-Verlag, 1972.

[10] Graves A, Liwicki M. Fernandez S, et al. A novel connectionist system for improved unconstrained handwriting recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,6(5):55-68.

实验步骤:设置MFCC的特征参数为13,在其他参数不变的情况下,调节GMM-UBM的阶数从而得到测试结果见图4[14]

防患未然 全面提升防灾减灾救灾能力 ...............................................................................................................5-1

[12] Herbert J,Harald H. Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication[J]. Science,2004,4(2):78-80.

传统力控末端执行器主要利用恒力补偿作动部件实现轴向或径向的柔顺控制,恒力补偿作动部件一般为弹性元件,如弹簧或柔性机械结构,由于刚度的影响,其力控制精度相对较差且难以实现实时调节。

[13] Herbert J. Echo state network[J]. Scholarpedia, 2007,2(9):2330.

[14] Sotirios P C, Yiannis D. Echo state gaussian process[J]. IEEE Transactions on Neural Networks, 2011,9(22):1435-1445.

[15] 张彩红,洪青阳,陈燕.基于GMM-UBM的说话人确认系统的研究[J].心智与计算,2007(4):420-425.

⑥Jin S.,Jayne T.S.,“Land Rental Markets in Kenya:Implications for Efficiency,Equity,Household Income,and Poverty”,Land Economics,2,2013.

[16] 胡青. 卷积神经网络在声纹识别中的应用研究[D].贵阳:贵州大学,2016.

[17] 蔡涛. 基于改进型回声状态网络的声纹识别方法研究[D].兰州:兰州大学,2014.

3.会做却做错的题。这种情况很容易被学生忽视,因为会做,就觉得不必担心。虽然常常在细节上出问题,也只认为下次注意就行了。实际上,如果遇上环环相扣的题,稍一出错,可能导致整道题丢分;

[18] 胡明哲,杨永立.基于卷积神经网络的颅内病变类型影像的判别[J].黑龙江大学自然科学学报,2017,34(6):748-756.

比较典型者,如朱权在对元曲进行风格分类时,其“新定府体一十五家”冠以诸如“承安体(华观伟丽)”“西江体(文采焕然,风流儒雅)”[11](P13-14)这类的评价,反映出他对元曲艺术成就的高度认同。

 
李晓坤,郑永亮,袁烺,陈虹旭,邵娜,杨磊,曹晓琪,姜诗萌
《黑龙江大学工程学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号