更全的杂志信息网

基于多层混合模型的非高斯海洋背景场表示

更新时间:2016-07-05

1 引言

经典声纳信号处理方法通常认为海洋背景噪声服从高斯平稳随机过程,舰船辐射噪声中的连续谱部分也被视为高斯噪声。实际情况下,受行船噪声、海洋生物噪声、海洋物理现象等影响,海洋环境噪声十分复杂,通常不再满足高斯分布。声纳中一般使用奈曼-皮尔逊准则和贝叶斯风险准则来对信号进行检测,这些准则在实际中应用时通常假定噪声服从高斯分布,例如广泛使用的匹配滤波器就是在高斯白噪声条件下使用奈曼-皮尔逊准则导出的;常见的均方误差意义下的最优线性滤波器,例如维纳滤波器和卡尔曼滤波器也是在噪声服从高斯分布时得到的。在非高斯噪声条件下,若仍使用传统的信号处理方法,可能会降低信号检测和估计系统的性能。

针对非高斯噪声问题,近年来出现了一系列的新的信号处理方法,例如非高斯ARMA模型、高阶统计量、K分布模型、高斯混合模型等[1-2]。由于高斯混合分布模型具有简洁的表示方法和直观的物理意义,本文将主要研究非高斯噪声环境下使用高斯混合模型对海洋噪声进行预处理,使用一种具有促稀疏性的多层高斯混合模型对不同海洋环境噪声进行建模来分析多层模型中的混合系数、混合分量均值、混合分量方差等特征量的规律。

2 高斯混合模型

任何连续的分布都可以用高斯混合分布或者指数分布任意逼近[3-6],因此采用高斯混合模型可以将任意复杂的海洋噪声概率密度函数分解为若干个高斯型概率密度函数之和,这为处理非高斯噪声信号提供了直接的思路。

将具有以下形式的随机变量概率密度分布称为高斯混合分布:

不同迭代下,3种算法的MAPE的性能对比如图2所示。由图2可知,随着迭代次数的增加,3种模型的错误率都逐渐下降,这是由于随着训练次数增加网络参数的分布越来越接近最小值点。但是BP网络在达到一定的训练次数后错误率出现震荡并且有逐渐增加的趋势,而SVM和高斯过程回归的错误率稳定下降,这间接的证明了这两种算法可以使网络初始参数的分布区域更加接近最小值点,并且有效地避免了局部震荡。对比这两类算法,高斯过程回归算法错误率更低,效率更高。

(1)

式中高斯分布N(x|μkk)被称为混合模型的第k个分量,μk和Σk分别是第k个分量的均值和协方差矩阵,πk是第k个分量的混合参数,需要满足条件0≤πk≤1和混合分量的个数K→∞时,高斯混合模型可以逼近任何连续分布,实际情况下,K在大于一定值的情况下逼近精度已经很高,在进行推断时,通常对K设置一个较合适的值,此时也被称为有限高斯混合模型。假设π={π1,π2,..,πK}代表K个混合参数的集合,Y={y1,y2,...,yN}代表N个观测样本的集合,μ={μ1,μ2,...,μK}是混合分量均值的集合,Σ={Σ12,...,ΣK}是混合分量协方差矩阵的集合,则高斯混合模型的对数似然函数为

450 Analysis of calculus composition of upper urinary tract: a single-center study

(2)

由于高斯混合模型参数的最大似然估计不能解析表达,这些参数需要借助隐变量通过迭代的方法求得。定义隐变量z=[z1,z2...,zK]Tzk∈{0,1},z中只有一个分量zp=1,其余分量均为零,因此

(3)

隐变量z表示了当前样本是否属于某个分量。给定辅助变量z和其余参数,则y的条件概率可以表示为

(4)

YZ的联合似然函数可以表示为

(yn|μkk)znk

(5)

(6)

当给定观测值后,根据贝叶斯公式,给定观测和其他参数的情况下,样本点n属于第k个分量的后验概率概率γnk可以表示为

(7)

图1 高斯混合模型的图模型表示

图 1中μ和Σ均为待求参数,实际中对μ和Σ均会有一定的认识,因此可对这些参数引入先验信息,构成多层贝叶斯模型。合理先验信息的引入会使模型更精确地逼近实际情况,引入先验知识后便可以采用贝叶斯推断来求得待求随机变量的最大后验估计。

3 多层混合模型及其在海洋环境噪声处理中的应用

3.1 多层贝叶斯模型

实际环境中,噪声产生机理和存在形式存在很大的不确定性,所以噪声的特征往往可以分为相似却不同的多个组;传统的单层模型通常只考虑个体的差异而忽视了组间差异,在进行参数估计时,综合考虑特征的个体变化和组间变化会得到噪声分布的深层规律。此外,单层模型对参数的选取较为敏感,在观测野值出现时不够稳健,系统参数的细微变化可能会导致模型较大的差异。而使用多层模型可以将参数的不确定性引入模型中,从而提高模型的灵活性与稳健性;从另一角度来说,使用多层模型的性能将一直优于单层模型,这是由于当多层模型忽略掉组间差异时即退化为单层模型。

在图 1的基础上增加超参数层和混合参数层并分配特定的超先验便可得到一种多层高斯混合模型,如图 2所示。

图2 多层高斯混合模型

图 2所示的混合模型中,混合系数π是随机变量,服从参数为α的狄利克雷分布,

研究结果表明,以小檗碱和生物总碱为指标,兴隆小檗药材质量最好,其次是野鸡河,再次是足纳。小坝产小檗药材无论是根、根皮及茎皮,小檗碱和生物总碱的含量均最低,具体原因尚需进一步研究。小檗药材在毕节市分布广,数量大,具有很高的开发利用价值。兴隆是小檗栽培的最适宜种植区,小坝不适合小檗的栽培。

p(π)=DIR(π|α)

(8)

高斯混合模型分量的协方差矩阵Σk是参数层随机变量,其逆矩阵被Λk被称为精度矩阵,均值向量μk也为参数层随机变量,W0γ0m0β0Λk为超参数层随机变量,超参数的先验分布被称为超先验。精度矩阵服从超参数为W0γ0的Wishart分布,式中W0D×D维正定矩阵,γ0为Wishart分布的自由度,Λ的概率密度函数如下

(9)

式中B(W0,γ0)=|W0|-γ0/2·

对于普及推广本来说,在处理古籍中的地名、人名时,如果是单纯的繁简字问题,我们认为就应该根据简化原则进行简化;如果是异体字问题,就地名而言,该地名如果现在仍在用,就以现在用的地名为准,如果现在已经不用该地名,我们建议选用现在该字的规范字体。如果是人名中的异体字,我们同样建议直接选用该字的规范字体。如果人名中的异体字目前仍然在用或者被收入《现代汉语词典》中且单独成条,是否选用该异体字,要看具体情况,主要还要参照最新的规范字表。当然,一些具体选字,还需要参照多种古版本,如果古版本本身就有多种字体,且其中有一种是目前的正体字,我们更建议直接选用该正体字。

超参数W0的先验分布是一个超先验为Σy和1的Wishart分布,其概率密度函数如下

p(W0y,1)=Wy,1)

混合模型中μk均服从高斯分布,μk的精度矩阵与Λk有关,这是为了构造共轭分布,简化最大后验估计推导过程,μk的条件概率为

另一方面,线下渠道就更加丰富,例如可以与扬州广陵书社合作,广陵书社一直致力于挖掘江苏丰厚的地方文化底蕴和学术资源,出版了大量古籍图书,书画收藏和反映江苏各地风俗面貌、历史文化的书籍。如果可以与广陵书社合作,那么微信公众号则会受到来自各地专家学者的关注,这不仅有利于传播扬州文化,还有助于增强扬州文化的影响力。此外,社会发展学院和文学院的老师在外出交流访谈时也可以推广此公众号。

(10)

超参数γ0由如下概率密度函数生成

肠道菌群参与人体营养物质的转化与吸收,并与多个组织、器官存在密切的相互作用,如果肠道菌群的组成成分发生变化,不仅会产生多种胃肠道疾病,还可诱发肥胖、糖尿病、多发性硬化症(MS)等慢性疾病[10]。这些疾病可能直接作用于下丘脑-垂体-性腺轴,可通过影响人类生殖器官结构、生殖细胞发育和成熟、激素水平改变及对子代健康等方面,进而在生殖健康中发挥重要作用。

(11)

超参数m0的先验分布是一个超先验为uy和Σy的高斯分布,其概率密度函数为

p(m0|uyy)=N(m0|uyy)

(12)

就在柯达DCS Pro 14n发布的同一天,佳能也推出了属于EOS系统的首台全画幅数码单反产品EOS-1Ds。相对于康泰时和柯达的那两台相机,EOS-1Ds全画幅数码单反相机已经进入了另一个新的时代,从极其现代化的造型就可以看出端倪,这与我们现在使用的相机已经非常接近了。

p(ukk)=N(uk|m0,(βΛk)-1)

(13)

由于高斯分布精度矩阵的共轭分是布Wishart分布,pk)是p(μkk)的全共轭先验,因此μk和Λk的联合概率密度函数满足

为有效运用有限的训练时间,加强技能实训,提高训练质量,我们制定了参赛选手培养方案。方案具体实施可随年度赛事要求做小调整,由此近两年取得到了较好的竞赛成绩。具体方案如下。

(14)

(14)表示的分布也被称为Gaussian-Wishart分布。

3.2 吉布斯采样

图 2所示的混合模型层数大、变量较多,整体较为复杂,参数后验概率很难进行解析表示,此时通常采用采样的方法近似估计这些参数的最大后验。采样方法的基本思想是:随机变量x的函数后验概率的期望值E[f(x)|D]可以通过以下方式进行逼近

(15)

式中x(l)是从分布p(x|D)中采样的独立样本。经典采样方法有逆变换采样、拒绝采样、自适应拒绝采样[7]、重要性采样等,但它们在高维随机变量时这些采样方法的应用受到很大的限制,而马尔科夫链蒙特卡洛(markov chain monte carlo: MCMC)则是目前对高维随机变量进行采样最常用的方法。本节将采用MCMC采样方法近似估计这些参数的最大后验。MCMC采样的思想是使用一条马尔科夫链来产生待采样分布的样本,并对马尔科夫链达到平稳状态时的样本进行蒙特卡洛积分。在数种MCMC采样中,吉布斯采样由于其简单有效被应用得最为广泛。假设待采样的高维分布为p(z)=p(z1,...,zM),z={z1,z2,...,zi-1,zi,zi+1,...,zM},zi代表z中去除掉zi后其余变量组成的集合,吉布斯采样每次更新一个变量zi,所采样的分布为该变量对去除掉zi后其余变量的条件分布,即

p(zi|zi)

(16)

假设τ代表更新次数,则第τ+1次更新过程中zi按照如下公式进行交替采样

(17)

公式(17)表明了zi的更新涉及到zi对其余所有变量的条件概率;对于图模型,则只需要zi对于其马尔科夫毯中节点的条件概率;进一步地,对于有向图模型,zi的马尔科夫毯中的节点只包括其父母节点、子节点和配偶节点[4]

使用吉布斯采样对图2所示有向图模型进行处理的步骤为:

(1)对变量z,其马尔科夫毯中节点为πyμ和Λ,所以在吉布斯采样中,其条件概率为

(18)

(2)对变量π,其马尔科夫毯中节点为z,并令(zn,k=1)代表样本中属于第k类分量的个数,故其条件概率为

p(π|Z)=Dir(α0+N1,...,α0+N1,...,α0+NK)

(19)

(3)对变量μk和Λk,由于高斯分布和Gaussian-Wishart分布共轭,则μk和Λk的后验概率也是Gaussian-Wishart分布,(μkk)马尔科夫毯中节点为YZm0βW0γ0,令代表所有属于第k个分量样本的均值,代表所有属于第k个分量样本的方差,因此对应的条件概率为

p(μkk|Y,Z,m0,β,W0,γ0)=

NW(μkk|mk,βk,Wk,γk)

(20)

经过整理,可以得到中的各项参数:

高斯混合模型可以使用如下的图模型进行表示:

(21)

(22)

γk=γ0+Nk

(23)

(24)

(4)对变量m0,其马尔科夫毯中节点为μk和Λk,由于p(m0)的概率和p(μk|m0,βΛk)构成Gaussian-Gaussian型分布,故p(m0)和p(m0|μk,βΛk)是共轭分布,m0的条件后验也服从Gaussian分布。

(25)

m0补全Gaussian分布后可得

p(m0|μ1,...,μK1,...,ΛK)=

N(m0|mnew,Λ-1new)

(26)

式中

“让银行真实、全面地掌握民企信息,是为它们提供融资服务的前提。”某大型商业银行分行副行长吴先屏介绍,企业信息散落在工商、税务等多个单位和部门,信息不共享,导致银行获得的客户信息不完全,往往出现企业多头贷款、过度融资等问题。

改革开放几十年以来,我国城市居民的生活水平不断提高,人们对于美好生活环境的追求日益强烈。随着当前我国垃圾围城等问题日渐凸显[1],生活垃圾混合收运处理模式已无法满足进一步推进生活垃圾减量化、资源化、无害化的需要。

(27)

引入隐变量后,对数似然函数可以通过对隐变量进行积分得到

(28)

(5)对于变量W0,其马尔科夫毯中节点为Λ和γ0,对应的条件概率为[8]

p(W01,...,Λk,γ0)=

(29)

由于(1)~(5)对应的概率分布都对应现有的常用分布,可以简单使用逆变换采样等方法进行采样。

4.无论是总体,还是不同区域,亦或是不同时段,房价对物价的影响都为正,地价亦能通过房价传导机制对物价带来相应的影响,但影响的程度和方向会有所不同。房地产行业与其他行业之间存在重要且复杂的投入产出关系,房价的变动势必会对其他相关行业的成本产生显著影响,并最终影响这些行业生产的最终商品的价格,进而影响一般物价水平。此外,土地作为生产的关键要素之一,其价格的变动也会影响最终商品的成交价格,进而影响一般物价水平。

(6)变量γ0,其马尔科夫毯中节点为W0和Λ,对应的条件概率

可以看到多层模型中μ的真实先验概率是一个t-分布,而t-分布被广泛认为是一种能够促进估计稀疏性的分布[9];μ的条件先验是不具备稀疏性的高斯分布,对野值很敏感,贝叶斯推断使得得到的均值向量估计更尖锐和集中,且稳健性得到增强,因此在噪声建模中具有潜在的应用价值。

(30)

公式不能对应现有常用概率密度分布,但其对数是凹的,因此较适合使用自适应拒绝采样[7]从此分布采样。

均值μ的真实先验可以通过对进行边缘化得到:

如果说以涉诉信访统计通报考评机制为代表的司法行政权力对法官的管理、制约尚具有较为隐性的特征,那么人民法院的内部监察制度则更为显性地发挥着对法官的管理、制约作用。讨论民事诉讼中的法律监督离不开人民法院监察制度,毕竟,依据《中华人民共和国法公务员法》《中华人民共和国法官法》《人民法院监察工作条例》等规范性法律文件,对法律监督范围内的民事诉讼中审判人员的违法行为,人民法院监察部门能够而且应当启动相应的监察程序、形成相应的监察结果。

(31)

对于项目成本的控制,具体实施过程中不能只局限于纸上谈兵,或是以牺牲施工质量和安全为手段来达到降低项目成本的目的。在施工过程中,现场人员要进行现场蹲守,多观察,勤思考,多沟通,随时进行调整,达到创新的目的。应该根据合同要求的工程项目、质量、进度等指标,详细地编制好施工组织设计,作为制定计划成本的基础。对合同中的暂定项目和存在变更的分项工程,要进行严格审核,及时申报,避免返工、窝工以及浪费。

3.3 高斯混合模型检验

使用高斯混合模型对实际海洋背景噪声进行建模后,为了检验混合模型对真实噪声分布的逼近程度,需要以下式为原假设进行假设检验

(32)

式中GMM(p1,...,pK,μ1,...,表示由K个分量组成的高斯混合分布,第k个分量的混合系数、均值和方法分别为pk,μk由于实际噪声的准确分布未知,不能使用参数检验方法,这里使用单样本柯尔莫可洛夫-斯米洛夫检验方法来进行非参数检验。柯尔莫可洛夫-斯米洛夫检验(Kolmogorov-Smirnov test, 以下简称为KS检验)是一种基于经验累计分布函数的一维概率检验方法。假设噪声序列按照升序排列为{y1,...,yN},则其经验累计分布函数定义为

(33)

式中给定假设分布的累计分布函数G(y),则KS检验统计量为

(34)

假设检验可以通过临界值方法和p值方法;临界值方法通过比较统计量与临界值的大小来决定是否拒绝原假设;而p值方法通过比较p值与显著性水平来决定。为了便于直观理解,使用p值进行假设检验,KS检验的p值按照下面的公式进行计算

(35)

式中Ei表示将待检验数据和真实分布中对应经验累积函数值的数据置换后分组的KS检验统计量,#{Ei>DN}表示{Ei}中大于DN的元素个数,#{Ei}表示{Ei}中元素的个数,上述过程也被称为置换检验。

4 实验

海洋环境噪声的主要来自水面舰艇辐射噪声、交通噪声、海面风成噪声和海洋动物的声音,在对潜艇等微弱信号进行探测时,这些噪声构成了主要的背景干扰场。分别使用多层混合模型对两组海洋环境噪声进行建模:A组数据来自海洋哺乳动物被动声学检测与识别国际论坛[10]。数据采集地点为巴哈马的TOT海沟,采样频率为96 k Hz。对数据集中两个数据文件进行分析,分别为在1 386 m深处采集的海洋背景噪声和在1 725 m深处采集的导航鲸叫声,分析时间均为100 s。B组数据为南海某海域采集的背景噪声和大型水面舰船干扰噪声,采样率为20 kHz,采集深度为360 m,分析时间均为45 s。本实验主要关注噪声的低频部分,因此分别对两组数据进行低通滤波并降采样到960 Hz和1 kHz。由于海洋噪声量级较低,直接进行混合模型建模可能会导致较大的舍入误差,因此将两组原始信号分别放大200倍和100倍后再进行分析。估计出混合模型的参数后,进行单样本KS检验,混合模型的分量个数K=1,2,3,4,取显著性差异α=0.1。

图 3a和b分别显示了A组数据背景噪声和导航鲸叫声经滤波和降采样后的时频图;图 3(c)和(d)分别显示了B组数据的时频图。两组数据的背景噪声能量在分析频带内分布较为均匀,而受舰船噪声的影响,A组导航鲸噪声和B组大型水平舰船干扰噪声中均含有较强线谱成分。

图 4~图 7分别显示了使用多层混合模型得到的各组数据前三阶混合参数、方差和均值的估计值。对比估计得到的前三阶混合参数,可以发现第一阶参数π1较接近于1,第二阶混合参数π2几乎都小于0.5,第三阶混合参数π3较接近于0。对比估计得到的前三阶均值,可以发现第一阶均值μ1稳定分布在0附近,第二阶均值μ2的绝对值整体水平比第一阶均值的绝对值高,且较为杂乱,第三阶均值μ3的绝对值整体水平最高,最为杂乱。对比估计得到的前三阶方差,同样发现第一阶方差水平最为稳定且最小,阶数越高方差水平越大越杂乱。

图 8~图 11分别显示了对各组数据按照前K阶高斯混合分量分别进行KS检验得到的p值,图中黑色虚线代表显著性水平。从图中可以看出,若只使用第一阶高斯分量逼近各个噪声的真实分布,则原假设H0会被多次拒绝(即p<α);检验p值随着混合数增加而增加,A组噪声混合分量个数增加到3个时,拒绝次数已经减少到很低,B组噪声需要将混合数量增加到4个才能获得较少的拒绝次数,这说明虽然高阶分量混合系数较小,但对真实噪声分布的描述仍具有较大作用。

图 3 两组数据不同场景的时频图,色标用分贝表示

图 4 A组背景噪声分析结果

图 5 A组导航鲸噪声分析结果

图 6 B组背景噪声分析结果

图 7 B组行船干扰噪声分析结果

图 8 A组背景噪声KS检验结果

图 9 A组导航鲸噪声KS检验结果图

图 10 B组背景噪声KS检验结果

图 11 B组行船干扰噪声KS检验结果图

5 总结

研究了非高斯分布海洋环境噪声的建模问题,采用高斯混合模型可以将任意复杂海洋环境噪声的概率密度函数近似为若干个高斯型概率密度函数之和。为了提高模型的灵活性与稳健性,研究了一种具有促稀疏性的多层贝叶斯模型并给出了各个参数的条件概率。由于多层混合模型随机变量较多,使用吉布斯采样方法对变量的后验概率进行近似;对两组不同的海洋环境噪声进行高斯混合模型建模,分析结果表明混合分量的个数增加到一定程度,大多数时间段的数据均能通过KS检验。

参考文献:

[1] 刘竹青. 非高斯混响背景下的信号检测[D]. 哈尔滨工程大学, 2008.

[2] 李翠萍. 基于高阶统计量的非高斯ARMA模型辨识方法的研究[D]. 长沙:国防科学技术大学, 2002.

[3] MZA’YA V, SCHMIDT G. On approximate approximations using Gaussian kernels[J]. Ima Journal of Numerical Analysis, 1996, 16(1):13-29.

[4] BISHOP. Pattern Recognition and Machine Learning (Information Science and Statistics)[M]. Springer-Verlag New York, Inc. 2006.

[5] MENG D, DEL T F. Robust Matrix Factorization with Unknown Noise[J]. 2013:1337-1344.

[6] STERGIOPOULOS, STERGIOS. Advanced signal processing handbook[M]. CRC Press, 2001.

[7] GILKS W R, WILD P. Adaptive Rejection Sampling for Gibbs Sampling[J]. Journal of the Royal Statistical Society, 1992, 41(2):337-348.

[8] RASMUSSEN C E. The Infinite Gaussian Mixture Model[C]//Advances in Neural Information Processing Systems.DBLP,2000:554-560.

[9] TIPPING M E. Sparse Bayesian learning and the relevance vector machine[J].Journal of machine learning research, 2001, 1(Jun):211-244.

[10] MORETTI D, DIMARZIO N, MORRISSEY R, et al. Overview of the 3 RD International workshop on the detection and classification of Marine Mammals using passive acoustics[J]. Canadian Acoustics, 2008, 36(1):7-11.

贾平生,雷志雄
《电声技术》 2018年第02期
《电声技术》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号