更全的杂志信息网

基于改进MFCC的无人机监测方法

更新时间:2016-07-05

1 引言

近年来,无人驾驶飞行器(Unmanned Aerial Vehicle) [1]因为在成本以及尺寸上的优势,越来越多的应用于各个场景,比如用于园岭防护,商业运输,搜索救援,航拍等,但是无人机的广泛应用也给公共安全和隐私问题造成严重威胁,因为它们能够携带化学、生物或核攻击武器[2]。因此无人机的反制技术成为了城市和军事人员,设备和设施安全的保障,各国政府都在努力寻找解决相关问题的有效途径。目前广泛用于探测和跟踪无人机的技术主要是基于光学和无线电。比如基于无线电信号干扰技术的美国DroneDefender电波枪,欧洲空客集团反无人机系统,但是基于光学与无线电的无人机反制设备普遍存在工艺复杂,制造成本高昂,便携性低等缺陷。出于实用性,方便性,以及廉价性考虑,使用麦克风阵列,基于声学的无人机探测和识别方案得到越来越多的研究[3],这种方法不依赖于无人机的尺寸与位置,而是基于螺旋桨的声音,可以对无人机做出有效的侦测与识别。

无人机识别的第一步为特征提取,即在声音信号中提取有价值信息,剔除无用细节,组成特征向量来代表该音频样本。音频特征提取方法有谐波特征提取(HLA)[4],基于小波包变换的特征提取方法(WPT)[5],梅尔倒谱系数特征提取(MFCC)[6-7],由于无人机声音与可能形成噪声的其他声音在人耳听觉上有较高辨识度,因此本文将采用与人耳听觉特征相符的MFCC特征提取方法。并针对无人机场景中难以确定和消除的环境噪声,引入掩蔽滤波理论,对MFCC方法进行改进,抑制噪声分量,突出无人机声信号,最大化特征向量的有效性。无人机识别的第二步将采用分类算法对提取的特征进行分类,目前经典的分类算法有高斯混合模型(GMM)[8],支持向量机分类(SVM)[9],以及本文将使用的隐含的马尔科夫模型(HMM)[10-11],HMM是一种有参分类算法,常被用来进行基于图像的汽车分类[12]以及基于声学的语音识别。本文采用HMM模型也是因为考虑到HMM分类器的灵活性,当系统应用在不同场景时,可以针对该场景中常出现的干扰声进行模型的训练,灵活的调整分类器的参数,达到简化分类器,提高识别精度的效果。

2 声音信号的特征提取方法

无人机声音识别框架分为两个部分,即音频信号特征提取和音频信号分类。考虑到无人机信号在人耳中具有较高辨识度,本文将采用基于人耳模型的听觉特征提取方法,即梅尔倒谱系数提取方法。为了形成特征向量集,首先通过STFT方法分析音频的时频谱,然后利用MFCC方法进行特征提取。

然而消费者的行为通常还具有一定的非理性因素,网购惰性行为则表现为不愿做费周折的事来阻碍自己的便利,为减少麻烦宁愿舍弃运费险这一能降低购物风险的产品。不少受访者表示很少使用运费险仅仅是因觉得理赔流程较繁琐,那么运费险的出现对这部分惰性消费者而言并未产生太大影响。

2.1 STFT 和声音的时频谱

STFT即短时傅里叶变换。在实践中,无人机螺旋桨声音往往由于无人机的运动以及气流的影响,其特征并不完全取决于螺旋桨的转速[13],而是呈现出一定的短时平稳性,如图1所示。

图1 无人机声信号波形

在现代高校教育中,注重大学生综合素质和创新能力的培养成为教育界的共识。高校在转变教学理念的同时,加强实践在教学中的比重,改进实验教学方式方法,对于提高学生综合素质和创新能力,具有重要意义[1-3]。广东技术师范学院自动化学院根据制定的人才培养方案,按照复合型、创新型、应用型人才培养目标,为培养电类创新型人才实施高素质教育,在教育的同时更加专注培养学生的实际动手能力、创新思维,不断研究与探索实验教学,建设新型的实验教学环境,提高学生的工程实践能力及综合素质。

此外,在引进外资时,一方面要加强引导与监管,推动有关规范和法规的制定;另一方面要完善科学的指标体系,淡化规模数量指标,更加注重技术先进性、环境保护等质量指标的考量。另外,需要注重引进人才对利用外资的推进作用。

(1)

其中w(t)是窗函数,x(t)是原信号,X(τ,ω)是x(t)w(t-τ)的傅里叶变换,表示原函数在时间和频率上的相位与幅度分布。在离散时间的情况下,要转换的声音数据可以分成块或帧(通常是重叠的)。将信号分割成帧块时,可以根据信号的总持续时间和分辨率选择帧长度。然后,对每个帧块进行傅里叶变换,可以写成:

(2)

η表示高频掩蔽阈值,执行顺序按i由低到高执行。

spectrogram{x[n]}(m,ω)≡|X(m,ω)|2

(3)

图2显示了无人机和鸟声的时频谱图。有些声源通常出现在无人机的应用场景中,成为无人机反制过程中的干扰。从时频谱图中可以看出,不同的声音其特征在时间和频域上都呈现出明显的差异。这也说明了本文采用MFCC特征提取方法的合理性。

集中资源引进顶尖人才团队。对接新旧动能转换重大工程重点行业领域人才需求,按照“领军人才+创新团队+优质项目(优势学科)”模式,面向全球“一事一议”引进顶尖人才团队,给予资助或直投股权投资支持,符合条件的团队核心成员可全部入选人才工程。

a 无人机 b 鸟叫 图2 音频样本的时频谱

2.2 梅尔倒谱系数

为了将声学特征有效地提取出来,为每一种声音分别建立特征向量,本文利用MFCC特征提取方法对短时功率谱的包络进行特征提取。图3描述了利用MFCC技术进行特征提取的总过程。

预加重滤波器采用一阶高通滤波器,表示为:

y[n]=x[n]-αx[n-1], 0.9≤α≤1.0

(4)

图3 特征提取流程图

其中:x[n]和y[n]分别表示滤波器的输入输出,α表示滤波系数。

在预处理过程之后,将数字化的声音样本进行处理,以获得上面介绍的时频谱图,包括分帧、加窗和傅里叶变换。FFT过程后输出信号表示为:

Rifft(f)=FFT(ri(nwi(n)),

1≤iI, 1≤nN

Research Progress of Chinese Festival Tourism in Recent Ten Years based on Literature Measurement and Co-word Analysis___________________MIAO Hongjiao,YUAN Yazhong,ZHANG Si 45

(5)

其中ri(n)和wi(n)分别表示在第ith帧中的声音数据和窗函数,总帧数为IN表示帧长,Rifft(f)即为每一个窗口中的频谱。为了将信号从频率域转换到梅尔域,本文使用的梅尔滤波器转换关系如下:

(6)

在各帧的音频样本序列经过滤波器处理后,信号从频率域转变到梅尔域,再对其作傅里叶变换以及取对数计算倒谱,使用的公式如下

(4)配套软件的完善。要顺利实施融合生产,还需要新建改造完善配套软件。如外业调绘软件、数据编辑软件、数据质量检查软件、数据成果抽取转换软件等,从而提高生产效率。

1≤mM

(7)

N是对Rifft(k)做FFT所使用的长度。使用离散余弦变换提取梅尔系数

g*

n=1,2, ...,N

通过以上的分类,我们可以看到韩愈对于师者“传道授业解惑”的职责界定,对于师道不分长幼、不分先后的先进理念,对于尊师重道的推崇以及师道不传的叹息。

(8)

此处N表示所有的梅尔系数的数量,通常取前十二个系数来组成MFCC。

毕业后,楚艳成了一名颇受高端客户青睐的设计师,并且很快有了自己的服装品牌“楚和听香”。但真正让她大放异彩的,是为APEC领导人设计中装。

这样提取的MFCC反映了每一帧的静态特征,为了能将声信号的动态特征加以利用,本文加入了梅尔倒谱系数的差分系数,获得24位动态MFCC(D-MFCCs),动态特征提取方案如下

(9)

L表示差分阶数,通常取1或2,本文中取为1。

2.3 改进的MFCC特征提取方法

MFCC方法通过模拟人耳听觉特性进行信号的特征提取,在低噪环境中能够达到很好的识别率,但是MFCC提取过程中并未引入任何针对环境噪声做出的降噪处理,这样就使得其在噪声环境中性能的下降。在本文所述的无人机应用场景中,环境噪声不可避免,并且分布随机,很难预测或者提取噪声特点,为了解决噪声对识别率的影响,本文将掩蔽滤波理论(FMF, Frequency masking filtering)结合到MFCC特征提取的过程中,使得信号在进入梅尔滤波器组之前得到降噪处理,从而提高识别率。

滤波规则:ri-1=γRi

掩蔽滤波理论由Zhu W和O'Shaughnessy D提出,该算法是使用一种非线性的双向滤波器模仿人耳的掩蔽机制,可以用一组三角滤波器组进行简单描述,如图4所示,三角边左侧斜率为低频掩蔽阈值,用γ表示,右侧斜率为高频掩蔽阈值,用η表示。

图4 频率掩蔽模型示意图

掩蔽滤波在梅尔转化之前进行,在信号经过频谱运算后,利用以下规则进行滤波:

时间是棉条染色的必要条件,染色是一个复杂的过程[5]。染色顾名思义就是将棉条放入染液中,染料舍染液而转移到棉条,最终染上颜色。永光活性湖兰G上染需要一定的时间来完成上染过程。本实验通过改变染色时间,分别为 30 min, 45 min, 60 min, 75 min, 90 min,研究染色时间对棉条染色深度的影响。染色工艺见表9、实验结果见表10。

首先进行初始化:Ri=xi

掩蔽理论同样来自于人耳机能,其思想是掩蔽信号不明显的分量,突出信号明显分量。无人机声信号的特点主要取决于无人机螺旋桨转速,螺旋桨个数,螺旋桨叶片数,而波动和干扰主要来自于无人机飞行的速度变化与倾斜角变化,这就决定了无人机声信号的音频分布在某些频率上是固定的,另一些频率上是小幅度波动的,而掩蔽滤波恰好能够很好的修正这些波动,突出信号更加准确的特征。

(10)

基于HMM的无人机识别方法的过程可以描述为以下四个步骤:

滤波规则:ri-1=ηRi

(11)

x[n]和w[n]分别代表声音信号和窗函数。为了绘制出时频谱,此处对变换后的结果进行模平方:

这样就完成了掩蔽滤波,通过调整低频滤波阈值γ与高频滤波阈值η,可以针对无人机应用场景寻找最优的滤波效果,从而很好的在特征提取中进行降噪处理。

3 基于HMM的声音分类器

基于HMM的无人机声音识别的关键思想是使用多维的HMM来表示对应的声簇。首先HMM分类器被初始化。在此基础上,利用训练集的特征向量,对模型进行训练,以形成最佳的识别分类器。最后,利用维特比算法,最大似然地找出对应的类别。

3.1 隐含的马尔科夫模型

HMM是一个有序序列变量的统计模型,它可以很好地描述为一个参数随机过程。对在HMM中,状态是隐藏的和抽象的,而输入是可观察的[14]。可观测向量序列可表示为:O={ot}, 1≤tT。本文中表示声信号序列。

2016年调查显示,12%的医生使用大麻对抗焦虑和抑郁。2018年,35%的医生认为更多收入,可控的工作安排和减少政府监督有助于减轻倦怠,有66%的男性医生和58%的女性医生从未想过获得专业帮助。同时,医生通过锻炼(50%),与朋友聊天(46%)和睡眠(42%)应对倦怠。需要注意的是,这里面也包括很多不良行为,比如孤立自己(36%),吃垃圾食品(33%),饮酒(22%),暴食(20%),吸烟(3%)甚至吸大麻(1%),见图1。

其中,xi为原始信号在频率索引为i的功率谱,Ri为滤波后的对应功率谱,γ表示低频掩蔽阈值,为方便表示,引入变量rii由高到底执行。

步骤1:为每一个声簇定义训练序列;

步骤2:将每一个声簇描述为一个HMM模型,这样就得到了一个HMM模型λs=(As,Bss), 1≤sSsthHMM 表示第sth声簇;

步骤3:使用训练序列训练每一个声簇对应的HMM模型;

步骤4:使用训练后的模型对测试声簇进行识别分类。

3.2 模型的训练优化与测试

每一种声簇对应的HMM模型系数由训练数据决定,将训练音频中提取的特征向量作为训练过程中的输入数据,在本研究中,训练数据用Datasettrain表示:Datasettrain={Dstrain}, 1≤sS

六月二十七的下午,女社员们正翻红薯秧子,天突然下起雨来。杨小水信里的日期全是农历,六月二十七是阳历8月4日。小雨,但下得很急,队长杆子没让放工。当天晚上,村前村后的沟平了,塘满了,河也溢了。头天杆子还在忙着招呼堵水,现在又忙着派人放水,再不放,稻子就淹倒了。“庄稼老汉不怕鬼,就怕秋后一场水。”真不假啊。

通常来说,训练过程是为了找到HMM对应的系数γ,使此HMM模型具有产生对应可观测序列O(这里O就是从无人机声信号中提取的特征向量)的最大可能性。

使用训练数据和前向后向算法进行模型系统更新,更新后的模型系数为将保证更新后的HMM模型具有更高的概率产生对应声信号序列。即:

P(Otrain|λ)

(12)

Otrain表示从训练序列Datasettrain提取的特征向量。

所以仅仅做频率的分析无法将时间上的动态特征体现出来,而短时傅里叶变换是将一个较长的时间信号分割成更短的等长段,然后在每一个较短的段上分别计算傅里叶变换。这样就揭示了每个时间短段的频谱特征[13]。在连续时间信号情况下,信号的STFT可表示为

在上述的训练阶段完成后,含有S个HMMs的分类器中每个HMM的系数λs均得到优化。再将测试集音频文件中提取的特征向量作为模型输入,计算每个HMM输出该声信号序列的概率,取最大概率对应的HMM模型为归类结果。如公式(16):

cn

二是生态宜居。生态宜居的主体是本土居民,实现了“四生契合”才能称之为宜居,即生产、生活、生态和生意彼此照应、互相契合。如果仅从其中某一个方面出发考虑问题就难以实现目标。例如,仅从“生活”角度出发,一味让农民上楼,生活条件倒是得到了改善,但是生产非常不方便;仅从“生意”出发,就会为了温饱不顾环保,劈山开矿,挖地取煤,围湖造田,生态环境破坏了也不宜居;生产生活生态做好了,如果市场不开发,农民的经济收入得不到保障,宜居的根基也就不牢。因此一个生态宜居的地方,一定是“四生契合”。

(13)

图5为模型测试阶段的流程框图。

图5 测试过程流程图

4 实验设置与性能评估

本文中使用的声信号数据分为两个部分,训练集和测试集,每一个集合中都有五个声簇。特征提取方面采用两种MFCC特征提取方案,分别为D-MFCCs与FMF-MFCCs。在分类器中的HMM参数初始化之后,将训练集中提取的特征向量输入分类器进行分类器的训练,对模型参数γs进行更新。在测试阶段将测试集中提取的特征向量输入经过训练的分类器,对测试集中的声信号进行识别分类。

4.1 实验设置

本课题主要目的是基于无人机螺旋桨的声音对无人机进行识别,并对干扰声源对系统的影响进行分析评估,所以本文使用无人机声信号与四种可能在实际应用中形成干扰的声信号一共五种声音进行实验,它们分别是无人机,客机声,汽车声,鸟叫声,雨声,分别对应声簇1到声簇5,针对不用的系统应用场景,可以针对性的对干扰源进行模型的训练,并不局限于上述四种声源,这也是该方案灵活性的一种体现。对于识别要求极高的场景,可以从澳大利亚反无人机公司DroneShield获取其声音库服务, DroneShield声称该库中已经囊括了95%的商用无人机的声响,以及可能形成干扰的多种声源样本,并且会不断与时俱进更新内容。在本文中,对于声簇1到声簇5,每一个声簇中包含若干个声信号样本,如表1所示。

表2中描述了三种训练方案,对应的训练集表示为Datasettrain={Dstrain}, 1≤s≤3,三种方案的区别在于内部含有的音频样本数量不同,不同的训练集用来评估训练集样本量对分类器性能的影响。分别用D-MFCCs与FMF-MFCCs特征提取方案对音频样本进行特征提取,其中FMF-MFCCs的低频滤波阈值γ与高频滤波阈值η分别通过仿真获得最优组合为0.5与0.8。表2是音频样本相关系数和MFCC特征提取方案相关参数设置。

表1 训练数据中的五个声簇

D1trainD2trainD3train声簇1无人机1无人机1无人机2无人机1无人机2无人机3声簇2客机1客机1客机2客机1客机2客机3声簇3汽车1汽车1汽车2汽车1汽车2汽车3声簇4鸟叫1鸟叫1鸟叫2鸟叫1鸟叫2鸟叫3声簇5雨声1雨声1雨声2雨声1雨声2雨声3备注:无人机1: SYMA X5SW无人机3: Wltoys Skywalker客机2: Boeing737无人机2: BYROBOT Drone Fighter客机1: Helicopter客机3: Boeing747

表2 特征提取相关参数

参数数值采样率fs44.1 kHz每一帧长度Tf10 ms帧位移ΔTf1/2Tf=5ms傅里叶变换位数512梅尔滤波器抽头数24特征向量位数24 / 36

4.2 实验结果与讨论

实验结果的识别率PD定义为正确识别的样本数ND与总输入样本数NI的比值,即:

PD=ND/NI×100%

(5)CT检查前,医护人员应向受检者做好宣教工作,嘱其在检查过程中不要动来动去,避免造成检查图像模糊或伪影,造成受检者需重新检查,增加医疗费用,也会导致医疗资源浪费。

(14)

图6是在不同的训练集方案下采用D-MFCCs特征提取方案得到的实验结果。 从图6可以看出,当训练集为D1train时无人机的平均识别率为64%,当训练集为D2train时无人机的平均识别率为89%,当训练集为D3train时无人机的平均识别率为100%,由此可以得出训练阶段使用越多的训练集样本将训练出更高识别率的分类器,对于其它声信号此规律仍然适用,这就说明此系统具有很强的灵活性,不仅仅局限于无人机的识别,同样可以用于识别其它音源的场景中。

图6 采用D-MFCCs的平均识别率

为了评估特征提取中动态特征对系统性能的影响,使用FMF-MFCCs特征提取方案进行实验,所用样本与特征提取参数与D-MFCCs方案一致。图7显示了FMF-MFCCs特征提取方案下的分类器平均识别率,并且对比可以发现采用FMF-MFCCsD-MFCCs在系统性能上有2 % - 3%的提升。从图8可以看出,在训练集为D1train时,FMF-MFCCs方案比D-MFCCs方案在平均识别率上有3%的提升,训练集为D2train时提升为3.5%,当训练集为D3train时,识别率均达到100%。

图7 采用FMF-MFCCs的平均识别率

图8 两种特征提取方案的无人机识别率

为了测试该识别方案在噪声环境下的抗噪能力,本文在试验过程中对样本中以不同信噪比加入噪声进行仿真,图9表示不同SNR情况下D-MFCCsFMF-MFCCs特征提取方案下分类器的识别率变化。

图9 识别率随SNR的变化曲线

根据图9显示,随着信噪比的增加,识别率的性能得到了提高。FMF-MFCCsD3train结合能够提供最好的性能,使用相同的训练集与D-MFCCs结合方案性能仅次于上者。在SNR为20dB和16dB时系统性能趋于最优。即使在低信噪比5 dB时,识别率也超过80%。因此,根据图9所示的实验结果,FMF-MFCCsD3train结合的方案被认定为最优方案,并且在实际应用中,更多的训练数据的使用,将带来更高的性能表现。

5 小结

小型、低空飞行的无人机可能会对公共安全造成严重威胁,为了设计出一种价格低廉的,容易布置的无人机侦测方案,本文基于螺旋桨的声音使用麦克风接受无人机进行声信号,设计了一种基于改进MFCC特征提取技术与HMM模型相结合的无人机识别方案,并对性能及其影响因素进行评估分析。通过对比D-MFCCs与引入掩蔽滤波理论改进的FMF-MFCCs特征提取方案,验证了FMF-MFCCs特征提取方法比D-MFCCs方法在识别率上有2%-3%的提升,并且FMF-MFCCs方法相比D-MFCCs方法具有更好的抗噪性能,可以看出FMF-MFCCs结合的方案为最优方案,该方案最先达到最优性能,尽管在信噪比很低的情况下,系统仍然有较高的识别率,因此该无人机识别方法能够在噪声环境中有效的对无人机进行侦测识别。为基于声学的无人机反制技术的研究提供了参考。

参考文献:

[1] CAI G, DIAS J, SENEVIRATNE L. A survey of small-scale unmanned aerial vehicles: Recent advances and future development trends[J]. Unmanned Systems, 2014, 2(02):175-199.

[2] SHI W, ARABADJIS G, BISHOP B, et al. Detecting, Tracking, and Identifying Airborne Threats with Netted Sensor Fence[M].InTech,Sensor Fusion-Foundation and Applications,2011.

[3] PEACOCK M, JOHNSTONE M N. Towards detection and control of civilian unmanned aerial vehicles[C]// In: Proceedings of Australian Information Warfare Conference, 2013:179-185.

[4] WILLIAM P E, HOFFMAN M W. Classification of military ground vehicles using time domain harmonics' amplitudes[J]. IEEE Trans. Instrum. Meas., 2011, 60(11): 3720-3731.

[5] ZHANG X, FENG N, WANG Y, et al. Acoustic emission detection of rail defect based on wavelet transform and Shannon entropy[J]. Journal of Sound & Vibration, 2015, 339(339):419-432.

[6] 毕超,冯玉田,李园辉,等. 基于HHT的声频传感器车辆分类识别[J]. 电声技术, 2016, 40(6):48-52.

[7] 朱绍程,刘利民. 低空飞行声目标特征提取技术研究[J]. 电声技术, 2017, 41(z2):90-96.

[8] ZHUANG X, HUANG J, POTAMIANOS G, et al. Acoustic fall detection using Gaussian mixture models and GMM supervectors[C]// Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on. IEEE, 2009: 69-72.

[9] 张俊. 基于GMM与改进LS-SVM算法的说话人识别研究[D]. 合肥:中国科学技术大学, 2015.

[10] ALJAAFREH A, DONG L. Ground vehicle classification based on Hierarchical Hidden Markov Model and Gaussian Mixture Model using wireless sensor networks[C]// Electro/Information Technology (EIT), 2010 IEEE International Conference on. IEEE, 2010: 1-4.

[11] 胡明辉. 基于支持向量机和HMM的音频信号分类算法研究[D]. 长春:长春工业大学, 2015.

[12] MILLER N, THOMAS M A, EICHEL J A, et al. A Hidden Markov Model for Vehicle Detection and Counting[C]// Computer and Robot Vision. IEEE, 2015:269-276.

[13] 张学磊,冯杰,李兆利. 声探测技术在低空开放中的应用[J]. 电声技术, 2015, 39(1):52-56.

[14] RABINER L, JUANG B. An introduction to hidden Markov models[J]. IEEE ASSP Mag,1986, 3(1):4-16.

郭俊峰,张丽
《电声技术》 2018年第02期
《电声技术》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号