更全的杂志信息网

基于混合DBNN-BLSTM模型的大词汇量连续语音识别

更新时间:2016-07-05

0 引 言

随着大数据时代的来临,由大量未经标注的原始语音数据处理的传统机器学习算法已不再适用.同时,深度学习模型凭借其对海量数据的强大建模能力,成为当前语音识别领域的一个研究热点[1-8].深度置信神经网络(DBNN)[9-10]是由Hinton提出的多层且密集连接的神经网络模型,它的出现正式标志着深度学习理论在实际应用当中达到一个可以实施的阶段.

第二天,翻开学生们的周记一看,意见还真不少。有的说我脾气大,有的说我粗心大意,有的说我有些懒,还有的说我经常不兑现承诺……我被学生敏锐的洞察力所震撼,很庆幸自己的做法,及时掌握了班级里学生的想法。

近些年来,通过国内外专家学者的深入研究,使得深度学习理论在语音识别领域有了进一步的发展.努尔麦麦提·尤鲁瓦斯等[11]研究了维吾尔语声学模型和语言模型的建模技术、解码技术,对大词汇量的维吾尔语连续语音信号进行了识别实验,取得了较好的识别效果.Graves等[12-13]表明,在声学建模方面,BLSTM优于当时可用的大多数其他神经网络框架. 直到后来引入了连接时间分类(CTC)训练算法[14],并进一步的提高了音素识别精度.然而,Hinton等[15]表明DBNN甚至优于BLSTM-CTC.当具有许多隐藏层的网络被应用于诸如语音的结构化数据时,如果首先通过学习输入数据中的结构模型来初始化隐藏层中的权重,反向传播算法表现的更好.

DBNN的优点在于通过增加神经网络的层数和节点数,扩展了网络对于复杂数据的抽象和建模能力,但同时DBNN也存在一些不足,例如DBNN中一般采用拼帧来考虑上下文相关信息对于当前语音帧的影响,这并不是反映语音序列之间相关性的最佳方法.而长短时记忆单元(LSTM)[16]在一定程度上解决了这个问题,而后研究人员又对LSTM进行了扩展,使用双向长短时记忆递归神经网络(BLSTM)进行声学模型建模,以充分考虑上下文信息的影响.但同时BLSTM也存在一个非常重要的问题:句子级进行更新,模型的收敛速度通常较慢,并且由于存在大量的逐帧计算,无法有效发挥GPU等并行计算工具的计算能力,训练会非常耗时.因此考虑利用DBNN网络与BLSTM网络两者各自所具有的优点,将两者相结合来达到优劣互补的效果,提出一种大词汇连续语音识别(LVCSR)的声学模型,并进一步通过实验验证该模型的可行性.

1 DBNN-BLSTM混合神经网络

1.1 长短时记忆单元

长短时记忆单元(LSTM)神经网络是递归神经网络(RNN)的一种特殊形式,其网络拓扑特性保证了反向传播误差保持在一个恒定水平.其基本思想是利用不同类型的门来控制网络中的信息流.LSTM神经元可以被认为是一种能长时间保存信息的复杂且精巧的网络单元.通过门结构,LSTM可以决定什么时候记住输入信息什么时候忘记该信息以及什么时候应该输出该信息.图1给出了一个单独的LSTM记忆单元,可以由以下递推式描述:

it=σ(Wxixt+Whiht-1+Wcict-1+bi),

(1)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf),

(2)

ct=ft·ct-1+ittanh(Wxcxt+Whcht-i+bc),

(3)

ot=σ(Wxoxt+Whoht-1+Wcoct+bo),

(4)

ht=ottanh(ct).

(5)

其中:it,ft,ct,otht分别表示t时刻的输入门、遗忘门、神经元激活、输出门和隐层值的向量;σ()是sigmoid函数;W是连接不同门的权重矩阵;b是对应的偏差向量.

1.2 双向长短时记忆递归神经网络

语音识别流程如图4所示.首先将输入的训练语音信号经过神经网络进行预处理和特征提取,同时经过训练建立声学模型.通过语料训练学习得到词或句之间的相互关系,建立语言模型,通过语言模型来估计测试语音信号输入序列的可能性,最后通过解码算法将经过预处理和特征提取的测试信号与语言模型匹配的最优结果输出做为最终的识别结果.

(6)

(7)

(8)

图 1 长短时记忆单元 图 2 双向递归神经网络 Fig.1 Long short-term memory cell Fig.2 Bidirectional recurrent neural network

将隐藏层神经元由LSTM模型替代得到一种扩展结构,该结构称为双向长短时记忆递归神经网络(BSLTM).正向传播时输入序列在两个隐层中呈相反方向,当两个隐层将输入序列全部处理完毕,更新输出层.反向传播时输出层以相反的方向在隐层中传递反馈信息.

1.3 DBNN-BLSTM模型

与DBNN类似,通过堆积BLSTM得到Deep BLSTM,但是单纯使用多层BLSTM来构成声学模型不仅计算复杂度很大,且并不能取得最优的识别性能.经过实验尝试,采用DBNN-BLSTM混合模型结构,如图3所示.输入语音特征先经过7层节点数为1 024的DBNN变换,再经过BLSTM层和softmax层得到输出.

对混合DBNN-BLSTM神经网络进行常规DBNN网络的训练,再使用CTC算法进行最终权值调整,发现其比普通帧分类结果更好. DBNN-BLSTM是由单个通过逐层迭代训练的DBNN组成.DBNN-BLSTM顶部由两个LSTM网络组成:一个前向处理,另一个反向处理.两个LSTM网络的输入同时来自同一个DBNN的顶层.最后,两个LSTM模型使用Softmax[17]层与相同的输出层合并在一起.其主要思想是将单个DBNN网络做特征提取比LSTM本身更好,将BLSTM网络链接在顶部将比单独DBNN中使用的简单感知器的标准向量表现更好.为了找出哪个拓扑更好,应该直接比较DBNN和DBNN-BLSTM混合,然而因为实验所使用的ASR系统使用CTC训练算法,其设计考虑了RNN,所以不可行.因此,比较标准BLSTM和混合DBNN-BLSTM(都用CTC训练)可以使实验结果更具有说服力.

窗外下着淅淅沥沥的小雨,雨滴打在玻璃窗上发出刺啦刺啦的声音,溅出一个又一个泥点儿,原本烦躁的情绪又因此被放大。屋里,是果果窸窸窣窣的啜泣,只不过训了她一句,竟一直哭到现在。忽然听见了钥匙开门的声音,爸爸回来了,又免不了是一顿训斥。果然,果果看见爸爸回来,有人撑腰了,开始放肆的大声哭起来,仿佛是受了多大的委屈。

2 大词汇量连续语音识别系统

RNN无法充分地利用历史信息,在语音识别中,当整个话语被立即转录时,未来的语境对识别精确率也至关重要.双向BRNN使用两个单独的隐藏层处理两个方向上的数据,然后向前馈送到同一输出层. 如图2所示,BRNN通过将后向层从t=T~1与前向层从 t=1~T重复迭代计算来求得前向隐藏序列后向隐藏序列和输出序列y,然后更新输出层.

图 3 DBNN-BLSTM模型结构 图 4 语音识别流程 Fig.3 Model structure of DBNN-BLSTM Fig.4 The process of speech recognition

[8] 戴礼荣,张仕良,黄智颖.基于深度学习的语音识别技术现状与展望[J].数据采集与处理,2017,32(2):221-231.

2)8号煤层含气量分布是由构造、煤层埋深、顶板、水文地质条件等多种地质因素共同作用决定的,其中构造和水文地质条件是煤层含气量的主控地质因素。构造复杂程度控制煤层含气量的分布,其中构造简单、断裂不发育的部位含气量高;含煤地层地下水位等势线与含气量分布具有较好的契合关系,汇水部位煤层含气量高;煤层埋深在局部区域影响煤层含气量分布;泥岩伪顶封盖性能好,有利于煤层气的保存。

对于语言建模,主要使用100小时的广播和电视广播的转录,因为文本数据量的有限性,即使最大的声学语料库也不能充分表达.最终模型是由语法特征模型、词元模型和词汇模型构建的.通过一种使开发集上最终模型的复杂度最小化的方法来找到该内插过程的最佳权值.在这个过程中不同语料库的权值也被优化.语言模型最初是用手动准备的文本语料库训练的,对40 K字的词典复杂度达376,然后使用它们来注释和消除经过核心训练的文本和测试集.在使用新数据再训练模型之后,核心测试集上的复杂度为246.

3 实验及结果分析

首先搭建实验环境.在Windows环境下安装Anaconda运行环境,通过“pip install keras”命令安装深度学习软件包keras,同时安装关于神经网络计算的一些库文件,该实验是基于其中一个名为theano的库进行的.

实验中所利用的数据集为英文标准连续语音识别库 TIMIT数据集.将所有数据集划分成两个集合:训练集和测试集.其中90%用于训练所用,10%用于测试.使用MFCC将语音特征归一化,使用36个目标类标签(36个音素). 将DBNN设置为7层,每层1 024个神经元.测试表明,添加更多隐藏层可以使网络性能更好,但增益随着层数的增加会减少,同时每层使用更多隐藏单元也可以提高性能.实验中测试了一个DBNN模型,将DBNN训练75个周期,学习率设为0.005,动量设为0.9.RBM单元取二进制值,在添加具有200个块(100个正向和100个向后)的BLSTM层之后进行最终调整.对BLSTM和DBNN-BLSTM两个网络模型,根据经验设置学习率为10-7,动量设为0.9.BLSTM初始化权值在-0.1和0.1之间均匀随机变化.一个单独的BLSTM有39个输入(语音特征)和约113 000个神经元连接.在混合DBNN-BLSTM神经网络中使用的BLSTM具有1 024个输入,其权值的数目超过900 000个,致使训练显著减慢.

1 实验结果

Table 1 Results of experiments

声学模型声学语料库/h语言模型复杂度词识别率/%BLSTM12024665DBNN⁃BLSTM1224662BLSTM1224657

表1给出了两种网络模型性能对比结果.其将一个经过训练的DBNN-BLSTM网络在完整的语料库上进行实验会取得最好的结果.然而,因为需要大量的时间来训练这样较大的模型,训练时间甚至多达数十天并且对CPU要求过高,综合考虑,本实验以提高精确度为首要目的.

由表1可以看出,通过在语料库(120 h)上训练的BLSTM声学模型实现了最高的词识别精度,可达65%.而BLSTM仅在12 h的语料库上训练,词识别率下降了8%.DBNN-BLSTM在12 h的料库上的训练结果为62%,比相同时间下BLSTM的词识别率5%,而与相较于自身十倍语料库的BLSTM仅仅只下降3%,可以看出DBNN-BLSTM相比于BLSTM在性能方面有百分之六十多的提升,这得益于DBNN-BLSTM拥有更加强大的拓扑结构以及更深层的网络模型.与单独的BLSTM网络相比,DBNN-BLSTM网络所含有的巨型参数能非常详细的描述特征数据,对海量数据有用信息的挖掘能力更强.由此可得DBNN-BLSTM比BLSTM对复杂数据有更强的建模能力,在大词汇量连续语音识别上更具优势.

4 结束语

混合DBNN-BLSTM神经网络对比单一的BLSTM神经网络在性能上有明显提升,但由于网络的庞大性导致网络训练时间过长,使其在进行长时间的工作时效率会有所下降.深度学习在语音识别领域的研究还面临着许多问题,如在解决一个高度非线性问题时,导致在训练过程中容易陷入局部极小,以及长时间训练时易出现过拟合现象.对带有噪声的语音信号识别率不理想等问题.未来将针对以上问题做更多研究.

参考文献(References):

[6] 单煜翔,邓妍,刘加.一种联合语种识别的新型大词汇量连续语音识别算法[J].自动化学报,2012,38(3):366-374.

ZHOU S C,ZHANG H Y,YANG B.Voice service text classification based on deep belief network[J].Computer Engineering and Applications,2016,52(21):157-161.

[2] 邓侃,欧智坚.深层神经网络语音识别自适应方法研究[J].计算机应用研究,2016,33(7):1966-1970.

随着我国经济的不断发展,高速公路路网的不断完善,道路使用者对出行提出了更高的服务要求,而横向裂缝的存在,不仅对路面结构的完整性和路面结构强度存在隐患,同时也大大影响了路面行驶舒适性。因此,本文从横向裂缝产生机理入手,研究横向裂缝的评价方法,并对其处治对策进行简要分析,为我国高速公路的科学养护管理提供参考和指导。

矛盾爆发是在那天,婆婆直接带了老家一群亲戚进来时,欣欣正在洗澡。她在里面大声告诉婆婆:“都给我出去!”婆婆感觉面子挂不住,加上积怨成疾,终于引发世界大战。除了离婚,欣欣找不到出路;老亮也是进退两难,爸爸刚走,真把妈妈撵走,他也做不到。

[3] 王晓华,屈雷,张超,等.基于Fisher比的Bark小波包变换的语音特征提取算法[J].西安工程大学学报,2016,30(4):452-457.

WANG X H,QU L,ZHANG C,et al.Speech feature extraction algorithm based on the Bark wavelet packet transform with Fisher[J].Journal of Xi′an Polytechnic University,2016,30(4):452-457.

在开展异化翻译过程中,译者一般会采取和原文作者一致的表达方式,将源语和内容和差异因素尽可能地直接体现出来,保持原创的语言风格和异域文化的魅力特色。异化翻译的性质和目的决定了翻译中必然会带有浓厚的异域文化特征,其必然会出现与译语有着明显区别的新的语言表达风格和附加的文化魅力。鉴于异化翻译会尽量保持源语语言文化风格的“原汁原味”,让读者明显感受到了“洋腔洋调”的魅力,从而丰富了读者的阅读文化视野,展现了译语表达的内涵,这也就促进了不同语言文化之间的沟通交流。

[4] 左玲云,张晴晴,黎塔,等.电话交谈语音识别中基于LSTM-DNN语言模型的重评估方法研究[J].重庆邮电大学学报(自然科学版),2016,28(2):180-186,193.

[10] ACKLEY D H,HINTON G E,SEJNOWSKI T J.A learning algorithm for Boltzmann machines[J].Cognitive Science,1985,9(1):147-169.

[5] 王博.凸增量极限学习机的逼近阶[J].西安工程大学学报,2015,29(6):756-760.

WANG B.The approximation order of convex incremental extreme learning machine[J].Journal of Xi′an Polytechnic University,2015,29(6):756-760.

位于第Ⅳ含矿带以南1.5~1.8km,分布于枣庄断层北侧。走向280°左右,倾向SE,倾角60°~70°。矿带长约4.1km,厚约52m,含矿体有5层,单层厚0.47~20.3m,总厚13.80~25.50m(矿层厚3.23~11.36m)。

[1] 周世超,张沪寅,杨冰.基于深度信念网络的语音服务文本分类[J].计算机工程与应用,2016(21):157-161.

SHAN Y X,DENG Y,LIU J.A novel large vocabulary continuous speech recognition algorithm combined with language recognition[J].Acta Automatica Sinica,2012,38(3):366-374.

此外,谷祺教授还曾于1992~1993年在《辽宁财会》连续发表了十几篇有关资产评估的学术论文,对资产评估的理论与方法进行了系统论述,并就其中的一些核心问题提出了独到见解,对于完善资产评估学的学科体系做出了积极、有益的贡献。

[7] 王山海,景新幸,杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究,2015,32(8):2289-2291.

WANG S H,JING X X,YANG H Y.Study of isolated speech recognition based on deep learning neural networks[J].Application Research of Computers,2015,32(8):2289-2291.

我只觉得这个不爱说话的炊事员不错,每天的大清早他都给我们包饺子吃。他天天都要起得很早。秋季里潮气重,大清早,他孤零零一个人,在厨房里择菜,洗菜,剁菜剁肉,连擀带包,该多麻烦呀。

DENG K,OU Z J.Adaptation method for deep neural network-based speech recognition[J].Application Research of Computers,2016,33(7):1966-1970.

图4中声学模型是经过CTC算法训练的BLSTM,使用传统的25 ms帧长、10 ms 帧移的方式提取特征,同时使用维特比算法进行解码.首先使用基于语法的语言模型来设计,并且成功用于识别语法状态高达几千个概念的域约束任务,字识别率超过90%.预处理子系统通过独立训练实现初级声级标准化检测和语音检测.标准化是批量进行的,然后用与声学模型类似的训练方式进行语音检测,最终识别出语音、非语音和无声段.为完成实验测试,使用一种新的语言模型来完成LVCSR的过程.由于LVCSR是高度变化的,一个简单的N-gram方法并不能很好地工作.不同语言之间相比,由于词汇变化导致词汇量增长数倍,较大的词汇通常需要更多的训练数据,随着训练数据的增大系统解码过程的速度和准确性有了明显降低.另一方面,词元(lemma)的不同形式在句子结构中起着相同的作用,因此将词汇、词元和语法三种不同的语言模型相结合.最后使用机器学习方法来线性插入模型并确定其插值权重,从而最小化验证集合的复杂度.

DAI L R,ZHANG S L,HUANG Z Y.Deep learning for speech recognition:Review of state-of-the-art technologies and prospects[J].Journal of Date Acquisition and Processing,2017,32(2):221-231.

[9] HINTON G E,OSINDERO S,TEH Y W.A fast learning algorithm for deep belief nets[J].Neural Compution,2014,18(7):1527-1554.

ZUO L Y,ZHANG Q Q,LI T,et al.Revaluation based on LSTM-DNN language model in telephone conversation speech recognition[J].Journal of Chongqing University of Posts and Telecommunications(Natural Science Edition),2016,28(2):180-186,193.

[11] 努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木.面向大词汇量的维吾尔语连续语音识别研究[J].计算机工程与应用,2013(9):115-119.

(2)身体弯曲频率:将线虫置于表面未涂有大肠杆菌OP50的NGM培养基上,等待线虫恢复1 min以去除身体粘附的大肠杆菌,然后在体视显微镜下观察并记录秀丽隐杆线虫1 min内的身体弯曲频率。每个浓度测量20条秀丽隐杆线虫。一次身体弯曲的标准为假定沿着咽泵的方向是y轴,线虫爬行过程中身体沿着相应x轴方向上的一次改变。

NURMEMET Y,WUSHOUR S.Research on large vocabulary continuous speech recognition for Uyghur[J].Computer Engineering and Applications,2013,49(9):115-119.

[12] SCHUSTER M,PALIWAL K K.Bidirectional recurrent neural networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

[13] GRAVES A,SCHMIDHUBER J.Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J].Neural Networks the Official Journal of the International Neural Network Society,2005,18(5-6):602.

[14] GRAVES A,FERNANDEZ S,GOMEZ F,et al.Connectionist temporal classification:Labelling unsegmented sequence data with recurrent neural networks[C]//International Conference on Machine Learning.ACM,2006:369-376.

[15] MOHAMED A R,DAHL G,HINTON G E.Deep belief networks for phone recognition[EB/OL].[2010-07].http:www.cs.toronto.edu].

[16] HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,2014,9(8):1735-1780.

FCC汽油选择性加氢装置产品低辛烷值原因分析及改进措施……………………………………………………………(1):26

(y3-y1)(2y3y4+2y1y2)+y1(y1y3+y2y3+y1y4+y2y4)-y3(y1y3+y1y4+y3y2+y2y4)

[17] BISHOP C M.Neural networks for pattern recognition[M].Qxford:Oxford University Pree,1996.

李云红,王成,王延年
《纺织高校基础科学学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号