快捷分类

基于谱减法的藏语语音减噪研究*

更新时间：2009-03-28

0 引言

语音从人的口腔中发出时周围往往伴有各种各样的噪声,例如,马路上的汽车噪声、工厂和工地的机械轰鸣声,房屋中的空调声、风扇声、日光灯的蜂鸣声、打字声、谈话声和小孩的哭闹声等。在语音信息的采集过程中,难免会受到这些噪声的干扰。噪声不仅降低了语音的可懂度和清晰度,甚至严重地影响着语音处理的准确性。因此,减噪处理是语音处理的关键技术之一。

目前语音减噪方法主要有小波变换法[1]、MMSE法[2]、信号子空间法[3]、自适应滤波器减噪[4]、维纳滤波法[5]和谱减法[6]等。其中,自适应滤波器减噪、维纳滤波法减噪和谱减法是使用最广泛的减噪算法。自适应滤波器减噪法有较快的收敛性和平稳性,但计算量大,需要不断的逐个点更新,瞬时跟踪能力较弱;维纳滤波法的适应面较广,但不能用于噪声为非平稳的随机过程,对于向量情况应用不方便;相对于前两种方法,由美国Utah大学的Boll[7]提出的谱减法由于具有引入约束条件少和运算量小的特点,而被广泛采用。谱减法的研究起源于改进噪声中的线性预测(Linear Prediction,LP)分析,而今已被发展成估计噪声频谱并进行减噪的经典算法。随着减噪研究的不断深入,人们陆续提出了一些谱减法的变形形式,其中1982年由Tho mson提出的多窗谱估计的谱减法[8],对Boll的谱减法进行了重要的改进[6]使得多窗谱估计的谱减法成为当前减噪处理的研究热点。因此,本文通过分析谱减法及其改进方法中的过减因子和增益补偿因子,研究了基于谱减法的藏语语音的减噪方法。

1 谱减法

谱减法主要利用在无声期间统计得到的噪声方差来代替当前帧的噪声频谱,其基本原理如图1所示:

图1 谱减法基本原理Fig.1 The basic principle of spectral subtraction

1.1 基本谱减法

设语音信号的时间序列为x(n),加窗分帧处理后得到第i帧语音信号为x i(m),帧长为N。任何一帧语音信号x i(m)做DFT(离散傅里叶变换)后为

要对x i(k)求出每个分量的幅值和相角,幅值是|x i(k)|,它的相角是

已知前导噪声段时长为IS,对应的帧数为NIS,可以求出该噪声段的平均能量和谱减算法为谱减算法中α和β是两个常数,α称为过减因子;β称为增益补偿因子。求出了谱减后幅值为和相角Xiangle(k)结合就能经快速傅里叶逆变换(IFFT)求出谱减后的语音序列)。

1.2 多窗谱减法

传统的周期图法只用一个数据窗,而Tho mson提出的多窗谱估计的谱减法对同一数据序列用多个正交的数据窗分别求直接谱,其次求平均得到谱估计,因此可以得到较小的估计方差。Tho mson使用的数据窗是一组相互正交的离散球序列(Discrete Prolate Spheroidal Sequences,DPSS),也叫Slepian窗。多窗谱是一种比周期图法更准确的谱估计方法。多窗谱定义如下:

其中x(n)为数据序列;N为序列长度;a k(n)为第k个数据窗,满足多个数据窗之间相互正交:

步骤4:计算多窗谱改进谱减法:

(3)求出正频率部分的幅值和相位角。

2 基于谱减法的藏语减噪算法

其中L为数据窗个数;S mt(ω)为第k个数据窗的谱:

2.1 两组患儿的临床效果比较 B组患儿总有效率显著高于A组，差异有统计学意义(χ2=5.316，P<0.05)。见表1。

牛皮糖站在一块预制板上，俨然一位乐队指挥正在指挥一场协奏曲。挥舞着手臂，指挥着他的队伍，淋漓酣畅地开始了前所未有的伟大工程。看到镇长前来，他连忙放下手头工作，匆匆赶到镇长和村长站着的那堆红砖面前。

多窗谱估计中的过减因子和增益补偿因子两个参数对整个算法有着重要影响,过减因子α主要影响语音谱的失真参数,增益补偿因子β可以控制残留噪声的多少以及音乐噪声的大小[9]。藏语言文字是一种以辅音字母和元音字母为构件的拼音文字,以音节为单位,一般一个字为一个音节,各音节间用音节符“·”分隔。本文为了从字、词、句及篇章等各个层次上研究考察藏语语音的减噪效果,将藏语语音减噪算法设计如下(图2):

图2 基于谱减法的藏语语音减噪算法流程Fig.2 The flow chart of Tibetan speech noise reduction algorith m based on spectral subtraction

基于谱减法的藏语减噪算法具体步骤如下:

新时代中国梦光明前景的出现，与过去始终坚持弘扬爱国主义精神是密不可分的。在爱国主义精神的推动下，中国共产党带领中国人民实现中国梦，建立了人民当家作主的新中国，建立符合中国国情的社会主义制度，开启了改革开放的伟大实践，迎来了新时代实现中国梦的光明前景。

1982年，云南省非公有制工业产值仅占1%，1987年占比业不到5%，且基本上局限于以有色金属为主的原材料工业、磷化为主的化工业领域的采选、初加工。

步骤1:读入语音文件,消除直流分量,幅值做归一化。

步骤2:设置初始噪声比后生成叠加高斯白噪声的带噪语音,计算叠加噪后的信噪比。

算法对-5 d B、0 d B、5 d B带噪语音处理后的结果、纯净语音以及谱减后的效果如图3所示。不同信噪比时多窗谱减后的波形和纯净语音波形大同小异(图3)。由6位测听员对4个语料在信噪比为0 d B下的减噪效果进行了测听,Mean Opinion Score(MOS)分值如表1所示。句子减噪效果最好,其次是多音节,说明句子和多音节的减噪效果优于篇章和单音节的减噪效果(表1)。

假设5认为，对于衰退期企业，碳信息披露会加剧企业的融资约束。为了检验假设5，对处于衰退期的103个样本数据进行多元回归。表5的假设5部分列示了碳信息披露对衰退期企业融资约束影响的估计结果。结果显示：（1）CFAt-1的系数在5%的水平下显著为正（系数为0.0016，t值为2.61），表明衰退期的重污染企业普遍面临较强的融资约束；（2） CFAt-1×CDI的系数在10%的水平下显著为正（系数为0.1388，t值为2.41），表明碳信息披露加剧了衰退期企业的融资约束。假设5检验通过。

(1)设置窗后开始分帧,求帧数,本实验中同样使用了汉明窗。

(5)多窗谱法对每一帧数据进行功率谱估计,对功率谱的相邻帧之间进行平滑处理。

“在这次工作坊的学习中，我发现学情调研原来有深层的理论支持，就是知识建构的理论。人类建构知识，总是以自己原有的知识为基础，而学生建构新的知识，同样是以自己已有的知识或生活经验为基础，这就是我们教学的逻辑起点。有时教师讲了好几遍，有些学生还是不理解，这是因为教师的教学是建立在成人认知基础上的，没有结合学生已有的认知，特别是没有深入了解和分析不同层次学生理解的个体差异。可见，学情调研是多么重要。”

过减因子和增益补偿因子是决定谱减法减噪效果的重要参数,本文通过统计分析藏语语音在不同信噪比下的过减因子α和增益补偿因子β,研究了基于谱减法的藏语减噪算法,得出较为理想的α和β的取值范围,并发现句子和多音节的减噪效果优于篇章和单音节的减噪效果。

其次，对印花税进行分析。印花税主要在以下几个环节申报缴纳：一是借款人收到银行贷款后没有偿还能力，以协商或者判决/裁定决定，将抵押的财产交付商业银行时，需要依照双方协议或者法院判决或者仲裁文件进行产权转移，转移时需要按照产权转移文件记载的金额计算缴纳印花税(一般是转移或者承贷金融的5‰进行缴纳)；二是抵债资产出租期间应当按照租赁合同/协议记载的金额计算缴纳印花税；三是商业银行在转让债权资产时应当按照转让合同/协议记载的金额或者不动产登记机关认定的金额计算缴纳印花税。

(4)相邻帧之间做平滑处理,然后计算平均幅值谱。

小说中莫言对红高粱有过无数次的描写和赞美，森林般的红高粱散逸着苦涩微甘的气味，辉煌、凄绝、忧郁、庄严，象征着强烈的生命意志主体，自始至终伴随着小说中的每一位人物，熏染着每一位人物的灵魂。爷爷余占鳌与奶奶戴凤莲在高粱地里的大胆“野合”，洋溢着生命的本质与原始色彩的豪放；罗汉大爷被活剥之后仍然不停歇的咒骂、惊天动地的惨烈，迸发出民族的悸动和腾跃；二奶奶临死前一段诡谲的经历、呼天骂地的豪情，洋溢着生命原始的野性与无所畏惧。“红成洸洋血海”的红高粱孕育了高密东北乡的黑土地，赋予了在这里生活的人们高粱般鲜明的性格，给了他们自由的生命力。

(6)前导无话段中求出噪声平均功率谱,利用谱减关系计算出增益因子。

(7)用增益补偿因子计算谱减后幅值,幅值经快速傅里叶逆变换(IFFT),求出谱减后语音序列。

TIO是一种临床少见的获得性低磷性骨软化症，临床表现突出，但是无特异性，包括进行性骨痛、四肢乏力、活动受限、身高缩短等，严重影响患者的生活质量。病程早期常被误诊为强直性脊柱炎、骨质疏松、腰椎间盘突出等[5-6]。当患者生化检查结果表现为血磷水平降低、尿磷排出增多、磷廓清指数降低、碱性磷酸酶升高、血l，25(OH)2D3水平降低时，需要考虑到TIO的可能，但是需要除外遗传性低磷性骨软化症、肾小管酸中毒、范可尼综合征、原发性甲状腺旁腺亢进等其他原因所致的低磷性骨软化症。本研究37例确诊为TIO的患者，均符合上述临床症状及生化特点。

步骤5:计算谱减后的信噪比,输出信噪比与信噪增益,合成减噪后语音。

3 结果与分析

图3 藏语多音节使用多窗谱估计的改进谱减法效果Fig.3 Improved spectral subtraction effect of multisyllable using multitaper spectru m esti mation in Tibetan

本文实验语料均来自藏语网站,从大到小分为4个层次,即包含631音节的篇章、平均包含11个音节的10个句子、20个多音节的词和短语、100单音节。语音的信噪比分别为-5 d B、0 d B、5 d B,采样率为8 000 Hz、16 bit量化的纯净语音信号,分别叠加高斯白噪声。

3.1 主观评测

步骤3:设置参数,比如前导无话段长度、帧长、帧移、过减因子和增益补偿因子。

表1 MOS值Table 1 MOSvalue

MOS值语料Corpus MOS value测听员1 Interr ogator 1测听员2 Interr ogator 2测听员3 Interrogator 3测听员4 Interrogator 4测听员5 Interr og平均值Average ator 5 ter 2.5 2.8 2.4 2.6 2.4 2.54句子Sentence 2.6 2.9 2.5 2.7 2.6 2.66多音节Multi-syllable 2.5 2.9 2.5 2.8 2.5 2.64单音节Monosy篇章Chap llable 2.4 2.7 2.4 2.5 2.4 2.48

3.2 客观评测

适当地选择过减因子α和增益补偿因子β,可以有效除掉噪声或控制残留噪声以及音乐噪声的大小。反之将导致语音失真[9]。通过实验发现,藏语语音减噪中,α取值为1.8～3.0,β取值为0.001时较为合适。当过减因子α取1.7或者1.8时信噪比最高,α的值小于1.7或大于1.8时信噪比逐步减小;β=0.001时信噪比最高,β的值小于0.001或大于0.001时同样信噪比逐步减小。同时,语料越大,输出的信噪比就越提高。相对来说,句子和多音节的减噪效果优于篇章和单音节的减噪效果。具体实验数据见表2～4。

表2 不同信噪比下调整过减因子Table 2 Adjusting the reduction factor under different signal to noise ratio

注:*为输入的信噪比(d B)Note:*means signal to noise ratio of input(d B)

输入过减因子Enter the reduction factorα ectral subtraction-5* 0* 5改进谱减法的测算结果The calculatiion results of t he i mpr oved sp*2.099 8 5.975 2 9.604 5 1.6 4.294 8 7.485 1 9.569 2 1.7 4.475 2 7.694 8 10.027 4 1 1.8 5.069 5 7.587 2 9.375 0 1.9 4.915 4 7.520 3 9.391 6 2.4 4.820 1 7.354 0 8.574 2 4.671 1 6.594 1 7.895 5 3

表3 不同信噪比下调整增益补偿因子Table 3 Adjusting the gain compensation f actor under different signal to noise ratio

注:*为输入的信噪比(d B)Note:*means signal to noise ratio of input(d B)

输入增益补偿因子Input gain co mpensation factorβ改进谱减法的测算结果I mproved spectral subtraction results-5* 0* 5*5.398 4 4.349 8 7.134 5 0.000 01 5.358 4 4.636 6 7.238 4 0.001 6.013 3 6.812 2 7.405 6 0.01 5.124 9 6.719 7 7.414 0 0.1 2.532 5 5.461 1 7.669 5 0-3.662 6-0.326 3 3.282 3 1

表4 相同信噪比下4部分藏语语料测算结果Table 4 The calculation results of four parts of Tibetan language data under the same signal to noise r atio

注:输入的带噪语音信噪比为0 d BNote:The input noisy speech signal to noise ratio is 0 d B

语料Cor pus测算结果llable 5.560 8 5.406 0 4.406 3 Calculation results α=1.8,β=0.001 α=2,β=0.001 α=3,β ter 11.320 0 12.033 3 12.117 3句子Sentence 7.865 2 7.689 8 6.513 0多音节Multi-syllable 7.670 4 6.890 0 5.497 0单音节Monosy=0.001篇章Chap

4 结论

(2)每帧语音信号计算快速傅里叶变换(FFT)。

参考文献:

采用SPSS17.0对所有数据进行统计学分析处理，各组计量资料结果用（± s）表示，两两比较采用t检验，以P＜0.05为差异有统计学意义。

[1] 姚学锋,吴震,金观昌.数字散斑相关法中的小波减噪分析[J].清华大学学报:自然科学版,2001,41(4/5):108-111.YAO X F,WU Z,JIN G C.Wavelet denoising using the digital speckle correlation method[J].J Tsinghua Univ:Sci&Tech,2001,41(4/5):108-111.

[2] EPHRAI M Y,MALAH D.Speech enhancement using a mini-mu m mean-square error short-ti me spectral a mplitude esti mator[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1984,32(6):1109-1121.

[3] EPHRAI M Y,VAN TREES H L.A signal subspace appr oachf or speech enhance ment[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1995,3(4):251-266.

[4] 宋知用.MATLAB在语音信号分析与语音合成中的应用[M].北京:北京航空航天大学出版社,2013:184-194.SONG Z Y,The application of MATLAB in speech signal analysis and synthesis applications[M].Beijing:Beihang University Press,2013:184-194.

[5] 张青,吴进.基于多窗谱估计的改进维纳滤波语音增强[J].计算机应用与软件,2017,34(3):67-70,118.ZHANG Q,WU J.Improved wiener filter speech enhance ment based on multi-taper spectr u m esti mation[J].Co mputer Applications and Soft ware,2017,34(3):67-70,118.

[6] 武鹏鹏,赵刚,邹明.基于多窗谱估计的改进谱减法[J].现代电子技术,2008(12):150-152.WU P P,ZHAO G,ZOU M.An i mpr oved spectral subtraction method based on multitaper esti mation[J].Moder n Electronic Technology,2008(12):150-152.

[7] BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,27(2):113-120.

[8] HU Y,LOIZOU P C.Speech enhance ment based on wavelet thresholding the multitaper spectru m[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,2004,12(1):59-67.

[9] [投稿]谱减法语音降噪原理[EB/OL].[2017-0-11].http://blog.csdn.net/leixiaohua1020/article/details/47276353.[Sub mission]The principle of noise reduction in spectral subtraction[EB/OL].[2017-0-11].http://blog.csdn.net/leixiaohua1020/article/details/47276353.

作者

都格草，才让卓玛，南措吉

出处

《广西科学院学报》 2018年第01期

上一篇：蒙古语媒体资产编目问题研究*

下一篇：没有了

《广西科学院学报》2018年第01期文献

序作者：刘连芳

藏文信息处理研究进展* 作者：高定国

傣文信息技术研究进展* 作者：殷建民

壮、蒙古、维、哈、柯、朝语信息处理研究进展* 作者：刘连芳，海银花，那顺乌日图，黄家裕，吐尔根·依布拉音，玄龙云

东南亚语言及信息处理研究进展* 作者：黄家裕，刘连芳，邓姿娴，温家凯

浅谈蒙古文网站现状及发展趋势* 作者：德格吉日胡，木仁，韩百岁，明慧

藏文文本聚类及其相关技术综述* 作者：李玖一，于洪志，徐涛

知识图谱概念获取研究进展* 作者：边慧珍，哈斯

基于规范字符集的多语种统一字符编码方案* 作者：付勇，郭公

朝鲜语特殊短语结构的语言特征分析及自动提取* 作者：毕玉德，扈毅，安帅飞

蒙古文复杂文本布局引擎的标准符合性测试* 作者：呼斯勒，白双成，确精扎布

蒙古语词向量评测研究* 作者：乌云塔那，王斯日古楞

蒙古语媒体资产编目问题研究* 作者：娜仁图雅，白双成

基于谱减法的藏语语音减噪研究* 作者：都格草，才让卓玛，南措吉

杂志信息网