更全的杂志信息网

基于信息论方法的分类数据相似性度量

更新时间:2009-03-28

0 引 言

在机器学习算法中,两实例间距离或者相似性度量扮演着重要的角色,广泛地应用于分类、聚类和奇异值检测和特征学习[1-2]等算法中。常用的距离度量方法,如闵可夫斯基距离、马氏距离等,通常只适用于数值型数据。而对于分类数据,其属性为分类属性(如颜色、形状等),其值具有离散、无序和取值有限的特点,因此,不能直接对2个不同属性值进行比较,通常是利用数据驱动的方法,通过数据的分布情况等信息来对其进行度量。

对已提出的分类数据的度量方法,可分为不相似性和相似性这2大类。不相似性的方法包括Xie等人[3]提出的方法将分类数据映射到实数域,并以此度量不相似性,通过基于最近邻分类错误率最小化来更新值;Cheng等人[4]使用自适应相异矩阵评估分类属性值之间的差异,用梯度下降法优化误差;Le等人[5]则考虑给定2个值与其他属性的条件概率分布差异的组合进行度量,但随数据维度的增大,其复杂度也大大增加。Alamuri等人在文献[6]中介绍了对分类数据的距离或相似性度量的方法,而Boriah等人在文献[2]则侧重介绍了数据驱动的分类数据相似性度量方法,并根据方法所基于的理论对其做如下分类:基于频数的方法有OF(Occurrence Frequency),IOF(Inverse Occurrence Frequency),其中IOF与信息检索的逆文档频率的概念相关[7],Wang等人[8]将其应用到中文文本分析。基于概率的方法有Goodall,Smirnov和Anderberg,其中Goodall提出的度量使得不频繁属性值对整体相似性的贡献大于频繁属性值;而Smirnov不仅考虑给定属性值的概率,还考虑同属性其他取值的概率分布。基于信息论的方法有Burnaby[9]、Lin[10]、Lin1[2],其中Burnaby提出的方法使得在值不匹配时,对不频繁的属性值赋予较低的相似性;Lin定义2条数据的相似性是其共同的信息与总信息的比率,对频繁值在匹配时赋予更高的权重,对不频繁的值在不匹配时赋予更低的权重;Lin1是Lin相似性的修正方法,其不仅考虑给定属性值的概率,还考虑同属性的概率处于两者间的值的概率。除上面介绍的方法外,还有简单易懂的度量方法:Overlap[11],其定义2属性值相同时的相似性为1,否则为0;Eskin等人[12]提出的度量是关于属性取值个数的递增函数,取值越多的属性,被赋予更高的权重,但会出现同属性不同值具有同样的相似性。

上述相似性度量方法可应用于分类、聚类算法中,但是在有监督学习任务中,其未利用到数据集的类信息。考虑到类信息对分类有至关重要的作用,本文提出Lin方法改进版本MLin(Modified Lin),该方法把给定属性值的类概率与信息论方法结合,构造新相似性度量函数,对分类数据进行相似性度量。最后,在UCI机器学习数据库中的多个有类标签的分类数据集上,利用k-NN[13]算法与多个相似性度量方法结合进行实验比较,验证MLin的合理性和效用性。

1 Lin相似性度量

Lin[10]提出的分类数据度量方法是基于信息论的,包括了对有序和无序数据进行相似性度量。本文主要介绍对无序属性的度量方法,Lin认为x和y这2个实例的相似性与它们的共同信息和总描述信息有关。显然,若2实例的共同性越大,相似性越大;差异性越大,相似性越小。

对于2个实例x=(X1,X2,…,Xd)和y=(Y1,Y2,…,Yd),Lin对其相似性的定义为:

③企业所得税研发费用加计扣除规定:“企业发生的研究开发费用,未形成无形资产计入当期损益的,在按照规定据实扣除的基础上,按照研究开发费用的50%加计扣除,形成无形资产的,按照无形资产成本的150%摊销。”

引导思考:能否借助组内的学具来完成面积的测算?通过不同学具的拼摆、对比,感悟为什么正方形做面积单位比较合理。拼摆过程中准备小正方形、小圆片、三角形若干。要求学生小组合作完成。

 

(1)

 

(2)

 

(3)

 

(4)

式(4)中,Nk,Xk表示在数据集中属性Ak出现Xk的次数,N为数据集的实例总数,则表示在Ak上出现Xk的概率。由信息论相关知识,表示Xk的信息,因此式(1)的分子是2条实例的共同信息的负值,而分母Info(x,y)描述的是x、y各属性值的信息加和的负值。由此可见,式(1)的数学意义是x、y的共同信息与其总描述信息的比率。

当Xk≠Yk时,式(2)取值范围为[-2log (N/2),0],在时取得最小值;在时取得最大值。当Xk=Yk时,式(2)的取值范围为[-2log N,0],在时取得最小值,在时取得最大值。该方法在值不匹配时,对出现概率低的属性值赋予更低的权重;而在值匹配时,对出现概率高的属性值赋予更高的权重。Lin相似性度量方法只与属性值的概率有关,2实例的相似性范围为[0,1],当数据集的每个属性只有2个取值,且∀k,Xk≠Yk时,取得最小值;当x=y时,取得最大值。

2 Lin相似性度量的改进

2.1 MLin相似性度量

从上一章可知Lin相似性只利用属性值的概率,结合信息论方法构造相似性度量,且2实例的相似性范围为[0,1]。在处理分类问题时,Lin度量没有利用到类标签信息,而类信息对分类起着至关重要的作用。考虑到对带标签数据的相似性度量除利用属性值出现的概率外,还可以利用属性值在各个类上的分布信息,为此,本文将在Lin的理论框架上进行延伸——利用属性值的类条件概率结合信息论方法构造相似性度量,并对该修正方法命名为MLin。

小说家又开始对女孩说:“你的文笔略显粗糙。另外整个童话中还有一处致命伤,你把大灰狼写得奸诈,而把狐狸写得愚钝,这怎么可能?狼怎么可以斗过狡猾的狐狸呢?”

一个课时很难完成所有教学任务,因此教师可在课前录制微视频(如摄像软件的使用和spss软件使用方法)来提高上课效率。另外,教师也可通过培训兴趣小组,让兴趣小组成员在上课期间充当每组的“小组长”来帮助带动其他同学更快完成本节实验拓展课的教学任务。

 

(5)

 

(6)

 

(7)

式(7)中,Nk,Xk,c表示在属性Ak中,类标签为c且取值为Xk的样本数,Nc是数据集中标记为类c的样本数,则表示属性值Xk的类条件概率。值得注意的是,可能存在数据集中属性Ak取值为Xk的样本都不属于c类的情况,即Nk,Xk,c=0,为此,对类条件概率进行平滑修正处理,加上一个足够小的正常数ε(一般取ε=10-15)。

当Xk≠Yk时,式(5)的取值范围为[2Clog 2ε,0],当∀时,取得最小值;∀时,取得最大值。当Xk=Yk时,式(5)取值范围为[2Clog ε,0],当∀时取得最小值;在∀时取得最大值。易知,在MLin方法下,S(x,y)的取值范围为[0,1],当x和y对应属性的取值均相同时,S(x,y)取得最大值为1。

2.2 MLin相似性算法描述与分析

对于MLin相似性,最核心的部分是求出各属性值的类条件概率,再进一步求出属性值间的相似性。在算法1中,先假设属性Ak有nk个取值,再以维度为d,包含C个类别的数据集D作为输入,求出所有属性值的类条件概率列表M,相似度列表S。M的第k个元素Mk是关于Ak的条件概率矩阵,其规模为nk×C;S的第k个元素Sk是关于属性Ak的相似性矩阵,其规模为nk×nk,并且是对称矩阵。

对于微生物肥料产业发展目标,李俊认为,一是研发、应用和产业化要进入国际前沿水平;二是在规模、效果方面,继续扩大规模,提升耕地质量及农产品品质,争取占肥料总量的20%左右,应用面积在4亿亩以上,化肥利用率提高5%-8%;三是在新型产品研发方面,提高效果及质量,优化产品结构,发展新型功能的生物肥料产品,年总产量达3000万吨;四是在平台、体系 建立技术创新体系方面,要形成行业龙头企业为主体、产学研结合、有持续创新能力的平台。

假设分类数据包含C个类别,将Lin相似性中的概率改为类条件概率,即对式(2)~式(4)作如下修正得到式(5)~式(7):

10:Sk[j,i]=Sk[i,j]

算法1 预处理信息提取算法

过程:

输出:所有属性的类条件概率列表M,属性相似性列表S

过程:

1:初始化类条件概率列表M,属性相似性列表S

3:S(x,y)=S(x,y)+Sk[Xk,Yk]

3:初始化类条件概率矩阵Mk,属性相似性矩阵Sk

4:for i=0,…,nk-1 do

5:for c=1,…,C do

 

7:end for

8:for j=i,…,nk-1 do

9:Sk[i,j]=Sk(i,j)

为了方便算法描述,先对数据集进行数据化预处理,把属性Ak的nk个取值按0到nk-1进行标记。例如对颜色(红,黄,蓝)进行如{红:0,黄:1,蓝:2}的形式数字化处理。在此,假设数据集D已经过数值化预处理。

11:end for

新课标指出“动手实践,自主探索,合作交流是学生学习数学的重要方式,学生的数学学习活动应该是一个生动活泼、富有个性的过程,所以备课时不仅考虑学生怎么想,我们应该怎么问,还要考虑如何设计学生的个体学习和合作学习活动,更要考虑如何给学生让出时间,让出空间,从而让出精彩,在探究求 45°与 225°=180°+45°和归纳出任意角α与的三角函数值之间关系过程中,让学生独立思考,小组讨论,投影展示,组间点评为学生提供了大量动手实践、探究交流的机会。从而形成新的知识与新的思维。

12:end for

13:将Mk,Sk分别加入M,S

14:end for

“灯下黑”原指灯具照明时由于被自身遮挡,在灯下产生阴暗区域。因为这些区域离光源很近,引申为人们容易忽视身边存在的事物和发生的事件。“景点灯下黑”是指本地人没有去看过自己家乡声名远播的景点,好比浙江人没看过西湖,山东人没爬过泰山,云南人没去过丽江,甘肃人没到过敦煌。

将算法1的输出类条件概率列表M,属性相似性列表S作为算法2的输入,即可求出2目标实例x,y的相似性。

算法2 MLin相似性度量算法

输入:x=(X1,X2,…,Xd)和y=(Y1,Y2,…,Yd),类条件概率列表M,属性相似性列表S

输出:x和y的相似性S(x,y)

输入:数据集D={(xi,ci),i=1,2,…,N},维度d,类别数C

1:初始化相似度S(x,y)=0,总信息Info=0

淮海经济区地处苏鲁豫皖4省交界处,由20个地级市组成,包括江苏省的徐州、宿迁、连云港、淮安和盐城,山东省的济宁、菏泽、临沂、枣庄、日照、泰安和莱芜,河南省的商丘、开封和周口,安徽省的宿州、淮北、阜阳、蚌埠和亳州.淮海经济区历史文化底蕴丰厚,是中华民族文明的发祥地之一,且因区域合作成果丰硕,如今成为全国比较有影响、卓有成效的区域合作组织.

3.英国。英国的所得税优惠政策主要包括研发税前扣除、税收抵免以及专利盒制度。从2015年4月1日起,英国对符合条件的中小企业研发支出实行230%的税前扣除。如果扣除额超过了当年税基,企业可以申请现金退款。从2018年1月1日起实行12%(税后为9.72%)的税收抵免,税收抵免额度以公司所得税和国家缴纳的保险为上限,超过当年上限的抵免额可以留存下一个会计年度。与其他优惠政策并行的是专利盒制度,对于符合条件的专利和知识产权的获利部分实行10%的有效税率[注]自2017年4月1日起,英国的法定企业所得税率为19%。,且这一优惠不受专利授权时间的限制。

2:for k=1,2,…,d do

2:for k=1,2,…,d do

4:for c=1,…,C do

5:Info=Info+log (Mk[Xk,c-1]×Mk[Yk,c-1])

6:end for

在我国航道管理条例之中明确的规定了航道所包括的大到沿海、江河等水域,小到一些湖泊与运河等可以通航的水域。航道设施所指的主要包括一些具有协航导航功能的设施、整治建筑物、过船建筑物、航运梯级以及一些具有其他功能的航道工程设施。与航道有关的设施所指的主要指会对航道通航条件造成影响的桥梁、闸坝、码头、水下电缆、架空电线以及管道等跨河、拦河与临河的建筑物,并且其中还包括了一些其他类型的工程设施。

7:end for

8:S(x,y)=S(x,y)/Info

1.湿热下注,气血壅滞。治法:解毒软坚,活血消痈。方名:加味活血消痈汤。组成:夏枯草30 g,紫草30 g,丹皮25 g,红花25 g,桃仁30 g,泽兰叶25 g,三棱25 g,莪术25 g,赤芍30 g,白芍30 g,木通25 g,小茴香25 g。

在算法1中,求出包含所有属性的类条件概率列表M的复杂度为O(d×nmax ×C),属性相似性列表S的复杂度为其中nmax =max (nk)。一般情况下Cmax ,从而算法1的时间复杂度为在算法2中,求S(x,y)的复杂度为O(d×C)。

2.4 临床妊娠结局对比 随访至今,试验组的临床妊娠率与着床率明显低于对照组,而自然流产率高于对照组,两组比较差异有统计学意义(P<0.05),见表2。

从算法的描述上体现了数据驱动的特点,首先从数据集D中获取关于各属性值的类条件概率依此求出Sk(Xk,Yk),最后求得相似性S(x,y)。因此MLin算法求x,y∈D的相似性,分成2步:1)通过算法1求出D的条件概率列表M,属性相似性列表S;2)以M,S作为算法2的输入,求2个实例的相似性。

3 实验与分析

3.1 数据集描述

在UCI数据库中选取6个纯分类属性的数据集进行分类,在表1中,给出了各个数据集的名称、数据集包含的实例数N、维度d、类别数C以及各分类属性取值的个数nk范围。

在图1中,图例对图中的折线进行了说明,例如c=1的折线上的各个点为其属性在c=1下的条件概率,各个点的横坐标是其属性值,纵坐标是其所对应的条件概率值。从图1可看出各个数据集在各个类别上属性值的概率分布情况,在Hayes-roth子图中出现3条折线多处重合;在Balance-scale中c=2的折线波动并不大,即c=2的数据对属性值并无明显的偏好;Tic-Tac-Toe和Mushroom都是二分类数据集,其对应子图的折线波动都比较明显;在Car Evaluation上,其在c=1、2时这2条折线在前半部分几乎重合了,c=3、4时也在前半部分出现重合;在Nursery的c=1、3、4上,3条折线的区分度都不大,而c=2的折线波动大,具有较高的区分度。由此可见,对于二分类数据,一般不会出现折线平行或多处点重合的情况。

表1 数据集情况

  

数据集NdCnk范围Hayes-roth132433~4Balance-scale625435Tic-Tac-Toe958923Car Evaluation1728643~4Mushroom81242022~12Nursery12960842~5

  

图1 各属性值的类条件概率分布图

3.2 实验结果与分析

把表1中的数据集划分为训练集和测试集,将MLin、Lin、Lin1、Burnaby、IOF、OF、Overlap和Eskin相似性度量方法分别与k-NN[13]结合,通过在训练集中寻找k个与测试集中的目标实例相似度最大的k个实例,并由其类标签进行投票,来预测目标实例所属的类别。由于ID3决策树算法[14]是对离散数据进行分类的经典方法,因此实验中应用ID3对数据集进行分类并与相似度结合k-NN的分类结果作比较。在表2中,给出了各种方法结合k-NN(k=3)在各数据集上进行十折交叉验证的平均错误率。

 

表2 十折交叉验证的平均错误率(k=3) 单位:%

  

datasetID3MLinLinLin1BurnabyIOFOFOverlapEskinHayes-roth0.1970.2510.310.440.3480.3860.4080.4090.455Balance-scale0.3270.2210.4240.40.4220.4100.4240.4240.416Tic-Tac-Toe0.1160.1190.130.5980.2680.0100.3220.1350.145Car Evaluation0.1660.0960.2480.7270.5150.1620.5040.2480.162Mushroom0.0370.0020.0350.0300.0490.0350.0330.0320.03Nursery0.1790.1230.2890.4790.2130.2970.4420.2880.299

在表2中,加粗的数值为所在行的最小值,即在某一数据集上的最小分类错误率。从中可看出,ID3在这几个数据集中的判错率都比较低,分类效率高,尤其在数据点较小的Hayes-roth上的平均分类错误率达到最低,体现了其对小数据集具有较好的鲁棒性,在该数据集上,MLin的表现比ID3略差。观察其余多个数据集的分类情况,除了Tic-Tac-Toe在基于IOF的k-NN上的分类效果最好外,其余的4个数据集均在基于MLin的k-NN上的分类错误率最低。尤其在Mushroom上,MLin方法的错误率仅有0.002;并且在Balance-scale上,MLin的准确率比Lin和Lin1的均高出近20%,比ID3高出了近10%的准确率。

  

图2 k-NN(k=3)十折交叉验证错误率折线图

为了对ID3、MLin、Lin和Lin1的分类结果进行更深入的比较,在k=3时,对其十折交叉验证的错误率画折线图进行可视化,见图2。图中包含6个子图,分别是6个数据集的十折交叉验证错误率折线图,其中横坐标为“avg.”的点的纵坐标值为十折交叉验证的平均错误率。显然可看出Lin1所对应的折线基本处于图的上方,错误率居高,而MLin所在折线几乎都在图的下方,错误率较低。在Hayes-roth的子图中,ID3所在折线明显地处在MLin的下方,这与表2的结论相对应。而在Balance-scale、Car Evaluation和Mushroom这3个子图中,MLin的表现明显优于其他方法。可见,MLin在各数据集的分类具有较高的准确率,ID3的表现处于MLin和Lin之间。综合表2和图2来看,Lin1的综合表现比较差,而MLin的表现都优于Lin,这也验证了MLin在有监督学习分类问题上的度量具有合理性和效用性。

为了比较在不同k值,k-NN方法在各数据集上的分类效果,将数据集分割出30%的数据作为测试集进行测试。在图3中给出了MLin、Lin、Lin1方法在不同k值下k-NN在各数据的测试集上的分类错误率折线图。纵观图3中的6个子图,MLin的错误率的折线几乎都处在图的最下方,而Lin1的分类效果则比较一般。同时可发现,在小数据集上(Hayes-roth,Balance-scale),MLin的表现比较一般,随着数据集规模的增大,MLin方法下的错误率均较低,如在Nursery数据集上,MLin方法的错误率低于0.05,且明显低于其他方法的错误率。

  

图3 在不同k值下k-NN的错误率折线图

作为数据驱动的相似性度量方法,并不适合处理小规模数据,若数据集太小,会导致估计的条件概率与实际分布的条件概率有较大的误差。再从时间代价上看,MLin在计算实例的相似度的复杂度比Lin和Lin1相似度方法的复杂度大,再结合k-NN进行分类验证,自然会比ID3花费更多的时间。

元素分析-同位素比质谱(EA-IRMS)分析结果以δ表示,它反应了样品和国际标准物质之间同位素丰度比的相对差异:

4 结束语

本文提出了Lin相似性的改进方法MLin,应用于分类数据的分类问题。MLin是基于信息论和属性值的类条件概率的,将数据的类信息、数据分布考虑入内,属于数据驱动的相似性度量方法。本文中,利用k-NN结合相似性度量方法,对UCI的6个数据集进行实验,结果显示MLin的分类错误率均较低,但在小规模的数据集上的效果比较差,并且也证实了数据驱动方法在小数据集上的表现都会比较差,由此可见MLin更适合应用于数据规模较大的数据中。未来可对其做进一步的扩展和应用,对混合数据进行相似度的度量[15-16]和对文本进行分析[17-18]

参考文献

[1] Lin Liang, Wang Guangrun, Zuo Wangmeng, et al. Cross-domain visual matching via generalized similarity measure and feature learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(6):1089-1102.

[2] Boriah S, Chandola V, Kumar V. Similarity measures for categorical data: A comparative evaluation[C]// Proceedings of 2008 SIAM International Conference on Data Mining. 2008:243-254.

[3] Xie Jierui, Szymanski B, Zaki M. Learning dissimilarities for categorical symbols[C]// The 4th Workshop on Feature Selection in Data Mining. 2010:97-106.

[4] Cheng Victor, Li Chun-hung, Kwok J T, et al. Dissimilarity learning for nominal data[J]. Pattern Recognition, 2004,37(7):1471-1477.

[5] Le Siquang, Ho Tubao. An association-based dissimilarity measure for categorical data[J]. Pattern Recognition Letters, 2005,26(16):2549-2557.

[6] Alamuri M, Surampudi B R, Negi A. A survey of distance/similarity measures for categorical data[C]// 2014 IEEE International Joint Conference on Neural Networks. 2014:1907-1914.

[7] Sparck J K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Document, 1972,28(1):11-21.

[8] Wang Yue, Ge Jidong, Zhou Yemao, et al. Topic model based text similarity measure for Chinese judgement document[C]// International Conference of Pioneering Computer Scientists, Engineers and Educators. 2017:42-54.

[9] Burnaby T P. On a method for character weighting a similarity coefficient, employing the concept of information[J]. Mathematical Geology, 1970,2(1):25-38.

[10] Lin Dekang. An information-theoretic definition of similarity[C]// Proceedings of the 15th International Conference on Machine Learning. 1998:296-304.

[11] Stanfill C, Waltz D. Toward memory-based reasoning[J]. Communications of the ACM, 1986,29(12):1213-1228.

[12] Eskin E, Arnold A, Prerau M, et al. A geometric framework for unsupervised anomaly detection: Detecting intrusions in unlabeled data[M]// Applications of Data Mining in Computer Security. Springer, Boston, MA, 2002:77-102.

[13] Cover T, Hart P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.

[14] Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986,1(1):81-106.

[15] 鞠可一,周德群,吴君民. 混合概念格在案例相似性度量中的应用[J]. 控制与决策, 2010,25(7):987-992.

[16] 赵亮,刘建辉,王星. 基于Hellinger距离的混合数据集中分类变量相似度分析[J]. 计算机科学, 2016,43(6):280-282.

[17] 孙怡帆,李赛. 基于相似度的微博社交网络的社区发现方法[J]. 计算机研究与发展, 2014,51(12):2797-2807.

[18] 陈彦萍,杨威,唐成务,等. 基于语义相似度的数据服务分类方法[J]. 信息技术, 2017(12):93-96.

 
郑碧如,吴广潮
《计算机与现代化》 2018年第05期
《计算机与现代化》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号