更全的杂志信息网

结合K-L散度和互信息的无监督波段选择算法

更新时间:2009-03-28

引 言

相比于普通的遥感图像,高光谱图像增加了光谱维,不仅包含了丰富的空间信息还具有高光谱分辨率。高光谱遥感器能够同时获取目标区域的2维几何空间信息与1维光谱信息,因此高光谱数据具有图像立方体的形式和结构,体现出图谱合一的特点和优势[1-2]。高光谱图像丰富的光谱和空间信息对目标探测及地物分类具有重要作用。然而,高光谱图像维数众多,导致数据量增加,相邻波段之间信息冗余度大,存在“维数灾难”,使得高光谱影像的降维、目标检测等面临很大的难题,不利于数据处理[3]。如何高效充分地利用高光谱图像丰富的信息,又能提高数据处理的效率,是目前研究的重点。高光谱图像降维是解决这一问题的常用方法。

针对高光谱图像数据冗余问题,常用降维方法来解决。波段选择是寻找与强化最具可分性的光谱波段的过程,它能在不损失重要信息的情况下有效降低维数[4]。波段选择方法是对高光谱源数据进行波段特征排序搜索和对光谱波段进行特征聚类[5],是对特定对象选择光谱特征空间中的一个子集,这个子集是一个简化了的光谱特征空间,但它包括了该对象的主要特征光谱,并且在一个含有多种目标对象的组合中,该子集能够最大限度地区别于其它地物。波段选择按是否需要先验知识可分为有监督波段选择和无监督波段选择。有监督波段选择是指已知目标或背景的先验知识条件下,最大限度地保留探测目标的信息。无监督波段选择是指在没有先验知识的情况下,选出信息量大的波段。由于高光谱图像目标或背景等先验信息通常未知,所以无监督波段选择算法具有较强的实用意义。

当前对波段选择的研究有:基于搜索的方法,如结合遗传算法的蚁群算法,这类较为复杂,运算时间较长;基于排序的思想,如最大方差主成分分析(maximum-variance principle component analysis,MVPCA)方法[6]、聚类(affinity propagation,AP)算法[7]、基于互信息(mutual information,MI)的方法[8-9]、基于最大信息量的无监督波段选择算法[10],这类算法是利用某一指标(如信息量)进行排序忽略了波段间的相似性、冗余度,导致选择结果不准确。为了提高波段选择精度,本文中提出了一种结合K-L (Kullback-Leibler)散度和互信息的无监督波段选择算法,利用K-L散度和互信息的比值定义了联合K-L散度-互信息(joint K-L divergence-mutual information, KLMI)准则。首先按信息熵大小对波段排序,然后通过最大化波段间K-L散度和最小化波段间互信息量,选出高信息量低相似度的波段。本文中的算法既能保留原始波段的有用信息特征又考虑了波段间差异性,有利于提高目标探测效率和分类精度。

1 算法描述

1.1 K-L散度

K-L散度同光谱相关系数、光谱角制图、离散度都是常见的相似性度量算法,分别从不同角度衡量波段间的相似性。K-L散度是一种在信息论中得到广泛应用的信号相似性度量[11]PQ是两个离散随机信号的概率分布函数,P=[P1,…,Pi,…,PN]T,Q=[Q1,…,Qi,…,QN]T,定义Q相对于P的K-L散度为:

 

(1)

当且仅当时,(1)式成立。(1)式表示:用Q中元素表示P中元素所需的额外的信息量的大小。K-L散度越大,说明用Q中元素表示P中元素的难度越大,即QP之间相似度越低。从本质上讲,K-L散度是一种概率意义上的非对称距离,也可以理解为两个信号所包含的信息量之间的差[12]

山东金洲矿业集团有限公司利用金尾矿生产加气混凝土砌块、蒸压砖和多孔砖等建筑材料,实现3个黄金矿山生产尾矿零排放,此外,还消耗大量的库存尾矿,每年消耗库存尾矿12万t[29]。

高光谱图像的每一个波段可以看成一个随机变量,因此可以利用K-L散度衡量两波段之间的相似性。假设一组高光谱图像数据共有L个波段,表示为X=[x1,x2,…,xL],xi=[xi,1,xi,2,…,xi,N]T是第i个波段列向量,其中N为像素个数。对xi进行归一化处理,得到为第i个波段列向量的第n个分量。因此第j波段相对于第i个波段的K-L散度为:

 

(2)

由(2)式可知,K-L散度越大,用第j波段表示第i个波段的难度越大,两波段间信息量之差越大,相似度越低。

1.2 互信息

本文中提出的KLMI波段选择方法,通过最大化K-L散度和最小化波段之间的互信息来进行波段选择。首先计算原始波段中信息熵最大的波段作为初始波段,然后选择与初始波段的KLMI最大且自身信息熵也越大的波段作为第2个波段,组成波段子集。然后选择与波段子集中所有波段KLMI值越大且自身信息熵越大的波段归入所选波段子集,以此类推,选择包含k个波段的子集作为结果。

 

(3)

由上述分析可知,KLMI值用于衡量各个波段之间的相似度,KLMI值越大,说明波段间相似度、冗余性越低,在该波段集合上的信息互补性和可分性越好。

施工队伍对于工程质量的好坏有着决定性作用,威廉·戴明曾说过“质量是生产出来的,不是检验出来的。”可见工程建设人员的专业素质对于工程质量的重要性,所以在进行施工队伍选择的时候一定要选择施工技术过硬的工程施工队伍,除了对工程队伍的施工资格进行认真检查外,更要挑选那些口碑良好的施工队伍。只有选择专业素质过硬的施工队伍,才能实现对施工过程进行全面的把控。不仅如此,还要定期对工人进行质量安全教育,切实把质量安全问题放在首要位置,可以悬挂一些宣传标语来对工人进行提醒,通过多种措施共同作用,将工程质量铭刻在工人的心中,增强工人对工程质量的责任感,能够进行安全生产,严把质量关[4]。

——司法鉴定管理通过动态的事后监管满足监管机制的创新要求。《实施意见》针对司法鉴定监管存在的问题通过监管机制创新来解决:一方面跳出了传统的审核登记管理的静态模式,实行了动态的监管模式,强调事中事后的监督,为司法鉴定监管带来了新的课题。另一方面,司法鉴定监管不仅仅在处罚,还在于激励。其中,激励机制的建立不仅会给司法鉴定管理制度带来监管方法的创新,也体现了司法鉴定管理的新理念,对于促进司法鉴定行业的有序发展具有重要意义。

互信息的实质是当某一随机变量已知的情况下,另一随机变量的不确定性的减小值,不仅可以衡量两随机变量共有信息量的多少,还可以衡量随机变量之间的相关程度。MI值越大,两变量之间的共有信息越多,相关度越大;当两变量相互独立时,MI的值为0。

根据所得数据做苯酚随时间的降解曲线,由于反应体系中氧化剂H2O2是过量的,其浓度可看作一个常数,因此可用一级动力学来模拟苯酚的氧化降解反应(ln(Ct/C0) = -k1·t,C0和Ct分别是苯酚的初始浓度和在t时刻的浓度),并根据拟合曲线的斜率计算降解动力学常数k1。

对于高光谱图像而言,给定的两波段图像XY,由(3)式可得图像XY的互信息为:

 

(4)

式中,变量x为图像X中的元素,变量y为图像Y中的元素,Pi(x),Pj(y)为变量x和变量y在第i个状态和第j个状态下的边缘概率密度,Pi,j(x,y)为变量x,y的联合概率密度。

由表1可知,本文中算法选择的波段信息熵之和最大,即信息量最大,而AP算法多所选波段包含的信息量最少。同时MVPCA,MI,AP及K-L散度方法4种方法得到的结果,波段比较集中,说明它们之间的冗余度较大;本文中方法所选波段分布范围较广,且远离光谱范围的边缘,效果较好。本文中方法所选前10个波段如图2所示。

1.3 联合散度互信息(KLMI)的波段选择

对于高光谱图像波段选择而言,既要满足信息量最大的要求又要使地物目标之间的可分性最大化。为了选取高信息量的波段,需要计算波段信息量并进行排序,将排在前面的单个波段进行组合获得最优波段集合。衡量波段信息量的大小可以利用K-L散度指标。因此,可以选出K-L散度值较大的波段组成集合,根据(2)式最大化K-L散度可用如下公式表示:

一般来讲,在电力系统中经常发生一些小事故,这些小事故通常通过工作经验来解决。但对于较大的事故,就不能仅靠工作经验来解决了。解决大事故就一定要通过正确的作业流程,制定出维修方案,进而在根本上将问题加以解决。

 

(5)

但是,高信息量的波段组合并不一定能最大程度上保持图像的原始波段信息,因为这些波段可能是邻近波段,相似性很大,提供的额外信息量几乎没有。有的波段虽然信息量不是很丰富,但是能提供与其它波段互补的信息。因此,就需要选择信息互补且相似度较低的波段。任意波段间的相似度可用互信息I(Xi,Xj)(1≤i,jN)衡量,根据(4)式,最小化互信息可用如下公式表示:

 

(6)

将(5)式和(6)式做比值,定义了联合散度互信息(KLMI)准则:

 

(7)

式中,P(x,y)是随机变量XY的联合概率密度,P(x),P(y)分别是变量XY的边缘概率密度。

互信息是信息论中的一个概念,它描述了两个系统的统计相关性,或者说一个系统存在于另一个系统中的信息量[13],可表示为:

1.4 算法步骤

在最佳反应条件下:总反应时间为1.5 h,pH为3,间隔投加时间为20 min,采取1.5%,1.2%,0.9%的加药量进行多次重复实验,实验结果如图5所示。

2 实验验证

2.1 实验数据

实验中采用的是于1992年由AVIRIS传感器获取的高光谱图像数据Indian Pines,成像地区为美国印第安纳西北地区,该数据共220个波段,波长范围为0.4μm~2.5μm,光谱分辨率为10nm,空间分辨率为17m,图像大小为145pixel×145pixel,该数据常用于高光谱图像的分类研究。去除水的吸收带和噪声波段,处理后保留了200个有效波段用于本实验。Purdue大学给出了一份关于该地区的实地调查报告[14]。该地区主要被农作物(约占总面积2/3,包括大豆、玉米、小麦、干草堆)和植被(约占总面积的1/3,包括树林、草地等)所覆盖。除农作物与植被外,还有铁路、公路、高速公路、房屋和无线电发射塔等地物。实验数据的假彩色合成和地面真实标记如图1所示。

本文中提出的KLMI波段选择算法步骤主要由4步组成:(1)利用信息熵指标选择信息量最大的波段b1作为初始波段,产生波段子集Φ1={b1};(2)利用联合散度互信息(KLMI)准则计算剩余波段与Φ1中元素的相似度,找出KLMI值最大时对应的波段,同时考虑波段自身的信息熵,选择KLMI值越大且信息熵大的波段b2,将b2波段加入子集Φ1中,即Φ2=Φ1∪{b2};(3)循环步骤(2),直到波段集合Φ中波段的数量满足分类需求;(4)更新波段集合ΦΦ中元素即为波段选择结果。

  

Fig.1 Synthetic false color image and real markings image

2.2 波段选择结果

根据本文中算法步骤,进行实验验证,计算图像各波段的熵值,得出第112波段熵值最大,因此选择第112波段作为初始波段b1,最终选出10个波段。同时为了更好比较本文中算法性能,实验还实现了常用的MVPCA方法、AP方法、MI方法及K-L散度方法的波段选择结果。然后计算各波段选择算法结果中各波段的信息熵的总和,信息熵总和及波段选择结果如表1所示。

(3)策略决策。该模块根据形式化的SLA及指标检测模块的结果判断CSP是否忠实履行了合约,并利用马尔科夫模型推测将来一段时间云服务可能的情况,通知CSP做出相应调整。将结果提交策略执行模块进行处理;

 

Table 1 Comparison of band selection results and information

  

bandselectionalgorithmMVPCAMIAPK⁃Lproposedalgorithmbandselectionresults8,20,36,62,63,69,70,72,92,959,32,30,23,13,89,57,97,100,110112,113,31,114,121,125,156,127,164,5115,49,33,87,21,63,101,99,71,56112,42,31,40,108,51,120,150,21,9sumofentropy67.127767.413967.009467.105867.7815

  

Fig.2 The results of band selection

2.3 分类结果

Purdue大学给出的Indian Pines数据实地调查指出该区域有16类不同地物,每一类地物中,分别随机选取5%和10%数量的样本作为训练样本,剩余样本作为测试样本,将波段选择后的结果进行分类实验,本实验中采用k最近邻(k-nearest neighbor,KNN)分类算法,经过多次实验反复调整k值,选取最优近邻个数为k=7时分类精度最高且噪声数据干扰降到最低。各算法总体精度与波段维数的关系如图3所示,横坐标为波段维数,纵坐标为分类精度。总体分类精度公式为:总体分类精度(overall acuracy,OA)=正确分类的像元数/像元总数。

 

Fig.3 Overall classification accuracy of different samples with various bands

a—5% samples b—10% samples

由图3可知,随着训练样本数量的增加,目标的先验知识就越多,分类的性能越好,分类的总体精度也就越高。在5%和10%的样本比例下,且维数大于2时,本文中算法相比于其它3种波段选择算法均取得了较好的分类效果。在样本比例仅为5%的条件下,本文中算法的分类精度就能达到82%。

表2、表3中给出了训练样本分别为5%和10%的情况下,不同算法中各类地物的分类精度、总体精度(OA)及κκ的计算公式[15]为:κ=(总体精度-期望精度)/(1-期望精度)。

 

Table 2 Classification accuracy of various types of objects (5% samples)

  

classtrainingsamplestestsamplesMVPCAMIAPalgorithminthispaperalfalfa23230.530.430.380.94corn⁃N3413940.490.650.640.71corn⁃M278030.490.550.640.69corn252120.370.400.470.66grass⁃M274560.800.830.910.94grass⁃T267040.900.900.920.99grass⁃P14140.570.560.860.86hay⁃W274510.970.980.981.00oats10100.270.360.600.93soybean⁃N309420.620.630.760.84soybean⁃M3124240.640.770.790.81soybean⁃C285650.380.520.470.58wheat251800.910.890.980.99woods3012350.900.930.940.96buildings273590.380.530.470.77stone26670.860.860.900.96OA0.650.710.760.82κ0.610.690.700.81

κ>0.8时说明分类精度高,κ在0.4~0.8之间,分类精度中等,κ<0.4时,分类效果较差。在相同样本比例情况下,本文中方法的OA及κ均优于其它3种算法,分类效果比其它3类算法效果好。这是因为本文中算法采用KLMI准则进行波段选择,实现了波段的高信息量及波段间的低冗余度,使得同类别数据间的相似性突出,且不同类别的数据之间的差异性更加明显。同时,对于大多数地物,本文中方法的分类精度优于其它算法,但是存在少数地物分类精度不高。

 

Table 3 Classification accuracy of various types of objects (10% samples)

  

classtrainingsamplestestsamplesMVPCAMIAPalgorithminthispaperalfalfa23230.280.710.70.79corn⁃N8914280.640.600.740.74corn⁃M738300.750.600.710.81corn662370.490.490.490.64grass⁃M717300.960.860.880.82grass⁃T814780.730.920.940.98hrass⁃P14280.470.570.830.62hay⁃W714780.890.960.990.99oats10100.440.470.580.47soybean⁃N768960.760.740.710.72soybean⁃M11223430.660.710.850.87soybean⁃C685250.520.470.720.78wheat671380.970.930.940.98woods8911760.860.900.960.99buildings683180.720.450.620.91stone47460.200.910.880.91OA0.710.720.810.85κ0.630.690.750.82

随着训练样本数量的增加,各类地物的分类精度、OA和κ均有所提高。综上所述,本文中算法取得了较好的分类效果,性能优于其它3种算法。

3 结 论

本文中提出了一种结合K-L散度和互信息的无监督波段选择算法,将K-L散度与互信息的比值定义为新的联合散度互信息准则,通过最大化散度和最小化波段间的互信息量,从原始波段中选出高信息量且低相似度的波段集合。首先基于信息熵选择初始波段,然后利用KLMI准则进行后续波段的选择,最终将本文算法及MVPCA,AP,MI这3种无监督波段选择算法应用于高光谱图像分类实验。实验结果表明,本文中算法相比于其它算法在分类实验中取得了较好的效果,算法具有较为优越的性能。该算法存在的不足为波段选择数量阈值需要人为设定,算法没有实现自动确定阈值功能,这是下一步研究的重点,进一步提高算法的智能性和自动化水平。

参考文献

[1] ZHANG B.Current progress of hyperspectral remote sensing in China[J].Journal of Remote Sensing, 2016, 20(5):1062-1090(in Chinese).

[2] BIOUCAS-DIAS J M, PLAZA A, CAMPS-VALLS G, et al. Hyperspectral remote sensing data analysis and future challenges[J]. IEEE Geoscience & Remote Sensing Magazine, 2013, 1(2):6-36.

[3] XIANG Y J,YANG G,ZHANG J F,et al.Dimensionality reduction for hyperspectral imagery manifoldlearning based on spectral gradient angles[J].Laser Technology, 2017,41(6):921-926(in Chinese).

[4] QIN F J, ZHANG A W, WANG Sh M,et al.Hyperspectral band selection based on spectral clustering and inter-class separability factor[J].Spectroscopy and Spectral Analysis, 2015,35(5):1357-1364(in Chinese).

[5] TAN Y Q.Unsupervised band selection for hyperspectral image based on multiobjective optmization[D].Xi’an:Xidian University,2014:19-21(in Chinese).

[6] MYRONENKO A, SONG X. Point set registration: Coherentpoint drifts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(12): 2262-2275.

[7] CHENG H,WANG Zh Q,ZHANG Y Y.Research on geometric rectification of aerial images[J].Journal of Northeast Normal University,2009,41(3): 50-54(in Chinese).

[8] BATTITI R. Using mutual information for selecting features in supervised neural net learning [J].IEEE Transactions on Neural Networks,1994,5(4):537-550.

[9] KWAK N, CHOI Ch H. Improved mutual information feature selector for neural networks in supervised learning [C]//Proceeding of 1999 International Joint Conference on Neural Networks.New York,USA:IEEE, 1999:1313-1318.

[10] LIU X S,GE L,WANG B,et al.An unsupervised band selection algorithm for hyperspectral imagery based on maximal information[J].Journal of Infrared and Millimeter Waves,2012,31(2):166-176(in Chinese).

[11] SHI Y, EBERHART R. A modified particle swarm optimizer [J].IEEE Xplore, 1998,7803(5):69-73.

[12] KULLBACK S. Information theory and statistics [M]. New York,USA: John Wiley and Sons, 1959:55-70.

[13] ZHOU Y, LI X R, ZHAO L Y. Modified linear-prediction based band selection for hyperspectral image[J].Atca Optica Sinica, 2013,33(8):0828002(in Chinese).

[14] LANDGREBE D. Multispectral data analysis: A signal theory perspective[R]. West Lafayette,USA: Purdue University, 1998:56-89.

[15] YANG J,HUA W Sh,LIU X,et al.Band selection algorithm for hyperspectral imagery based on K-L divergence and spectral divisibility distance[J].Journal of Applied Optics,2014,35(1):71-75(in Chinese).

 
王琪,杨桄,张俭峰,向英杰,田张男
《激光技术》 2018年第03期
《激光技术》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号