快捷分类

基于信息论方法的分类数据相似性度量

更新时间：2009-03-28

0 引言

在机器学习算法中，两实例间距离或者相似性度量扮演着重要的角色，广泛地应用于分类、聚类和奇异值检测和特征学习[1-2]等算法中。常用的距离度量方法，如闵可夫斯基距离、马氏距离等，通常只适用于数值型数据。而对于分类数据，其属性为分类属性(如颜色、形状等)，其值具有离散、无序和取值有限的特点，因此，不能直接对2个不同属性值进行比较，通常是利用数据驱动的方法，通过数据的分布情况等信息来对其进行度量。

对已提出的分类数据的度量方法，可分为不相似性和相似性这2大类。不相似性的方法包括Xie等人[3]提出的方法将分类数据映射到实数域，并以此度量不相似性，通过基于最近邻分类错误率最小化来更新值；Cheng等人[4]使用自适应相异矩阵评估分类属性值之间的差异，用梯度下降法优化误差；Le等人[5]则考虑给定2个值与其他属性的条件概率分布差异的组合进行度量，但随数据维度的增大，其复杂度也大大增加。Alamuri等人在文献[6]中介绍了对分类数据的距离或相似性度量的方法，而Boriah等人在文献[2]则侧重介绍了数据驱动的分类数据相似性度量方法，并根据方法所基于的理论对其做如下分类：基于频数的方法有OF(Occurrence Frequency)，IOF(Inverse Occurrence Frequency)，其中IOF与信息检索的逆文档频率的概念相关[7]，Wang等人[8]将其应用到中文文本分析。基于概率的方法有Goodall，Smirnov和Anderberg，其中Goodall提出的度量使得不频繁属性值对整体相似性的贡献大于频繁属性值；而Smirnov不仅考虑给定属性值的概率，还考虑同属性其他取值的概率分布。基于信息论的方法有Burnaby[9]、Lin[10]、Lin1[2]，其中Burnaby提出的方法使得在值不匹配时，对不频繁的属性值赋予较低的相似性；Lin定义2条数据的相似性是其共同的信息与总信息的比率，对频繁值在匹配时赋予更高的权重，对不频繁的值在不匹配时赋予更低的权重；Lin1是Lin相似性的修正方法，其不仅考虑给定属性值的概率，还考虑同属性的概率处于两者间的值的概率。除上面介绍的方法外，还有简单易懂的度量方法：Overlap[11]，其定义2属性值相同时的相似性为1，否则为0；Eskin等人[12]提出的度量是关于属性取值个数的递增函数，取值越多的属性，被赋予更高的权重，但会出现同属性不同值具有同样的相似性。

上述相似性度量方法可应用于分类、聚类算法中，但是在有监督学习任务中，其未利用到数据集的类信息。考虑到类信息对分类有至关重要的作用，本文提出Lin方法改进版本MLin(Modified Lin)，该方法把给定属性值的类概率与信息论方法结合，构造新相似性度量函数，对分类数据进行相似性度量。最后，在UCI机器学习数据库中的多个有类标签的分类数据集上，利用k-NN[13]算法与多个相似性度量方法结合进行实验比较，验证MLin的合理性和效用性。

1 Lin相似性度量

Lin[10]提出的分类数据度量方法是基于信息论的，包括了对有序和无序数据进行相似性度量。本文主要介绍对无序属性的度量方法，Lin认为x和y这2个实例的相似性与它们的共同信息和总描述信息有关。显然，若2实例的共同性越大，相似性越大；差异性越大，相似性越小。

对于2个实例x=(X1,X2,…,Xd)和y=(Y1,Y2,…,Yd)，Lin对其相似性的定义为：

③企业所得税研发费用加计扣除规定：“企业发生的研究开发费用，未形成无形资产计入当期损益的，在按照规定据实扣除的基础上，按照研究开发费用的50%加计扣除，形成无形资产的，按照无形资产成本的150%摊销。”

引导思考：能否借助组内的学具来完成面积的测算？通过不同学具的拼摆、对比，感悟为什么正方形做面积单位比较合理。拼摆过程中准备小正方形、小圆片、三角形若干。要求学生小组合作完成。

(1)

(2)

(3)

(4)

式(4)中，Nk,Xk表示在数据集中属性Ak出现Xk的次数，N为数据集的实例总数，则表示在Ak上出现Xk的概率。由信息论相关知识，表示Xk的信息，因此式(1)的分子是2条实例的共同信息的负值，而分母Info(x,y)描述的是x、y各属性值的信息加和的负值。由此可见，式(1)的数学意义是x、y的共同信息与其总描述信息的比率。

当Xk≠Yk时，式(2)取值范围为[-2log (N/2),0]，在时取得最小值；在时取得最大值。当Xk=Yk时，式(2)的取值范围为[-2log N,0]，在时取得最小值，在时取得最大值。该方法在值不匹配时，对出现概率低的属性值赋予更低的权重；而在值匹配时，对出现概率高的属性值赋予更高的权重。Lin相似性度量方法只与属性值的概率有关，2实例的相似性范围为[0,1]，当数据集的每个属性只有2个取值，且∀k,Xk≠Yk时，取得最小值；当x=y时，取得最大值。

2 Lin相似性度量的改进

2.1 MLin相似性度量

从上一章可知Lin相似性只利用属性值的概率，结合信息论方法构造相似性度量，且2实例的相似性范围为[0,1]。在处理分类问题时，Lin度量没有利用到类标签信息，而类信息对分类起着至关重要的作用。考虑到对带标签数据的相似性度量除利用属性值出现的概率外，还可以利用属性值在各个类上的分布信息，为此，本文将在Lin的理论框架上进行延伸——利用属性值的类条件概率结合信息论方法构造相似性度量，并对该修正方法命名为MLin。

小说家又开始对女孩说：“你的文笔略显粗糙。另外整个童话中还有一处致命伤，你把大灰狼写得奸诈，而把狐狸写得愚钝，这怎么可能？狼怎么可以斗过狡猾的狐狸呢？”

一个课时很难完成所有教学任务，因此教师可在课前录制微视频（如摄像软件的使用和spss软件使用方法）来提高上课效率。另外，教师也可通过培训兴趣小组，让兴趣小组成员在上课期间充当每组的“小组长”来帮助带动其他同学更快完成本节实验拓展课的教学任务。

(5)

(6)

(7)

式(7)中，Nk,Xk,c表示在属性Ak中，类标签为c且取值为Xk的样本数，Nc是数据集中标记为类c的样本数，则表示属性值Xk的类条件概率。值得注意的是，可能存在数据集中属性Ak取值为Xk的样本都不属于c类的情况，即Nk,Xk,c=0，为此，对类条件概率进行平滑修正处理，加上一个足够小的正常数ε(一般取ε=10-15)。

当Xk≠Yk时，式(5)的取值范围为[2Clog 2ε,0]，当∀时，取得最小值；∀时，取得最大值。当Xk=Yk时，式(5)取值范围为[2Clog ε,0]，当∀时取得最小值；在∀时取得最大值。易知，在MLin方法下，S(x,y)的取值范围为[0,1]，当x和y对应属性的取值均相同时，S(x,y)取得最大值为1。

2.2 MLin相似性算法描述与分析

对于MLin相似性，最核心的部分是求出各属性值的类条件概率，再进一步求出属性值间的相似性。在算法1中，先假设属性Ak有nk个取值，再以维度为d，包含C个类别的数据集D作为输入，求出所有属性值的类条件概率列表M,相似度列表S。M的第k个元素Mk是关于Ak的条件概率矩阵，其规模为nk×C；S的第k个元素Sk是关于属性Ak的相似性矩阵，其规模为nk×nk，并且是对称矩阵。

对于微生物肥料产业发展目标，李俊认为，一是研发、应用和产业化要进入国际前沿水平；二是在规模、效果方面，继续扩大规模，提升耕地质量及农产品品质，争取占肥料总量的20%左右，应用面积在4亿亩以上，化肥利用率提高5%-8%；三是在新型产品研发方面，提高效果及质量，优化产品结构，发展新型功能的生物肥料产品，年总产量达3000万吨；四是在平台、体系建立技术创新体系方面，要形成行业龙头企业为主体、产学研结合、有持续创新能力的平台。

假设分类数据包含C个类别，将Lin相似性中的概率改为类条件概率，即对式(2)～式(4)作如下修正得到式(5)～式(7)：

10:Sk[j,i]=Sk[i,j]

算法1 预处理信息提取算法

过程：

输出：所有属性的类条件概率列表M,属性相似性列表S

过程：

1:初始化类条件概率列表M,属性相似性列表S

3:S(x,y)=S(x,y)+Sk[Xk,Yk]

3:初始化类条件概率矩阵Mk,属性相似性矩阵Sk

4:for i=0,…,nk-1 do

5:for c=1,…,C do

7:end for

8:for j=i,…,nk-1 do

9:Sk[i,j]=Sk(i,j)

为了方便算法描述，先对数据集进行数据化预处理，把属性Ak的nk个取值按0到nk-1进行标记。例如对颜色(红，黄，蓝)进行如{红：0，黄：1，蓝：2}的形式数字化处理。在此，假设数据集D已经过数值化预处理。

11:end for

新课标指出“动手实践，自主探索，合作交流是学生学习数学的重要方式，学生的数学学习活动应该是一个生动活泼、富有个性的过程，所以备课时不仅考虑学生怎么想，我们应该怎么问，还要考虑如何设计学生的个体学习和合作学习活动，更要考虑如何给学生让出时间，让出空间，从而让出精彩，在探究求 45°与 225°=180°+45°和归纳出任意角α与的三角函数值之间关系过程中，让学生独立思考，小组讨论，投影展示，组间点评为学生提供了大量动手实践、探究交流的机会。从而形成新的知识与新的思维。

12:end for

13:将Mk,Sk分别加入M,S

14:end for

“灯下黑”原指灯具照明时由于被自身遮挡，在灯下产生阴暗区域。因为这些区域离光源很近，引申为人们容易忽视身边存在的事物和发生的事件。“景点灯下黑”是指本地人没有去看过自己家乡声名远播的景点，好比浙江人没看过西湖，山东人没爬过泰山，云南人没去过丽江，甘肃人没到过敦煌。

将算法1的输出类条件概率列表M,属性相似性列表S作为算法2的输入，即可求出2目标实例x,y的相似性。

算法2 MLin相似性度量算法

输入：x=(X1,X2,…,Xd)和y=(Y1,Y2,…,Yd)，类条件概率列表M,属性相似性列表S

输出：x和y的相似性S(x,y)

输入：数据集D={(xi,ci),i=1,2,…,N}，维度d，类别数C

1:初始化相似度S(x,y)=0,总信息Info=0

淮海经济区地处苏鲁豫皖4省交界处,由20个地级市组成,包括江苏省的徐州、宿迁、连云港、淮安和盐城，山东省的济宁、菏泽、临沂、枣庄、日照、泰安和莱芜，河南省的商丘、开封和周口，安徽省的宿州、淮北、阜阳、蚌埠和亳州．淮海经济区历史文化底蕴丰厚,是中华民族文明的发祥地之一,且因区域合作成果丰硕,如今成为全国比较有影响、卓有成效的区域合作组织．

3.英国。英国的所得税优惠政策主要包括研发税前扣除、税收抵免以及专利盒制度。从2015年4月1日起，英国对符合条件的中小企业研发支出实行230%的税前扣除。如果扣除额超过了当年税基，企业可以申请现金退款。从2018年1月1日起实行12%(税后为9.72%)的税收抵免，税收抵免额度以公司所得税和国家缴纳的保险为上限，超过当年上限的抵免额可以留存下一个会计年度。与其他优惠政策并行的是专利盒制度，对于符合条件的专利和知识产权的获利部分实行10%的有效税率[注]自2017年4月1日起，英国的法定企业所得税率为19%。，且这一优惠不受专利授权时间的限制。

2:for k=1,2,…，d do

4:for c=1,…,C do

5:Info=Info+log (Mk[Xk,c-1]×Mk[Yk,c-1])

6:end for

在我国航道管理条例之中明确的规定了航道所包括的大到沿海、江河等水域，小到一些湖泊与运河等可以通航的水域。航道设施所指的主要包括一些具有协航导航功能的设施、整治建筑物、过船建筑物、航运梯级以及一些具有其他功能的航道工程设施。与航道有关的设施所指的主要指会对航道通航条件造成影响的桥梁、闸坝、码头、水下电缆、架空电线以及管道等跨河、拦河与临河的建筑物，并且其中还包括了一些其他类型的工程设施。

7:end for

8:S(x,y)=S(x,y)/Info

1.湿热下注，气血壅滞。治法：解毒软坚，活血消痈。方名：加味活血消痈汤。组成：夏枯草30 g，紫草30 g，丹皮25 g，红花25 g，桃仁30 g，泽兰叶25 g，三棱25 g，莪术25 g，赤芍30 g，白芍30 g，木通25 g，小茴香25 g。

在算法1中，求出包含所有属性的类条件概率列表M的复杂度为O(d×nmax ×C)，属性相似性列表S的复杂度为其中nmax =max (nk)。一般情况下Cmax ，从而算法1的时间复杂度为在算法2中，求S(x,y)的复杂度为O(d×C)。

2.4 临床妊娠结局对比随访至今，试验组的临床妊娠率与着床率明显低于对照组，而自然流产率高于对照组，两组比较差异有统计学意义(P<0.05)，见表2。

从算法的描述上体现了数据驱动的特点，首先从数据集D中获取关于各属性值的类条件概率依此求出Sk(Xk,Yk)，最后求得相似性S(x,y)。因此MLin算法求x,y∈D的相似性，分成2步：1)通过算法1求出D的条件概率列表M,属性相似性列表S；2)以M，S作为算法2的输入，求2个实例的相似性。

3 实验与分析

3.1 数据集描述

在UCI数据库中选取6个纯分类属性的数据集进行分类，在表1中，给出了各个数据集的名称、数据集包含的实例数N、维度d、类别数C以及各分类属性取值的个数nk范围。

在图1中，图例对图中的折线进行了说明，例如c=1的折线上的各个点为其属性在c=1下的条件概率，各个点的横坐标是其属性值，纵坐标是其所对应的条件概率值。从图1可看出各个数据集在各个类别上属性值的概率分布情况，在Hayes-roth子图中出现3条折线多处重合；在Balance-scale中c=2的折线波动并不大，即c=2的数据对属性值并无明显的偏好；Tic-Tac-Toe和Mushroom都是二分类数据集，其对应子图的折线波动都比较明显；在Car Evaluation上，其在c=1、2时这2条折线在前半部分几乎重合了，c=3、4时也在前半部分出现重合；在Nursery的c=1、3、4上，3条折线的区分度都不大，而c=2的折线波动大，具有较高的区分度。由此可见，对于二分类数据，一般不会出现折线平行或多处点重合的情况。

表1 数据集情况

数据集NdCnk范围Hayes-roth132433～4Balance-scale625435Tic-Tac-Toe958923Car Evaluation1728643～4Mushroom81242022～12Nursery12960842～5

图1 各属性值的类条件概率分布图

3.2 实验结果与分析

把表1中的数据集划分为训练集和测试集，将MLin、Lin、Lin1、Burnaby、IOF、OF、Overlap和Eskin相似性度量方法分别与k-NN[13]结合，通过在训练集中寻找k个与测试集中的目标实例相似度最大的k个实例，并由其类标签进行投票，来预测目标实例所属的类别。由于ID3决策树算法[14]是对离散数据进行分类的经典方法，因此实验中应用ID3对数据集进行分类并与相似度结合k-NN的分类结果作比较。在表2中，给出了各种方法结合k-NN(k=3)在各数据集上进行十折交叉验证的平均错误率。

表2 十折交叉验证的平均错误率(k=3) 单位：%

datasetID3MLinLinLin1BurnabyIOFOFOverlapEskinHayes-roth0.1970.2510.310.440.3480.3860.4080.4090.455Balance-scale0.3270.2210.4240.40.4220.4100.4240.4240.416Tic-Tac-Toe0.1160.1190.130.5980.2680.0100.3220.1350.145Car Evaluation0.1660.0960.2480.7270.5150.1620.5040.2480.162Mushroom0.0370.0020.0350.0300.0490.0350.0330.0320.03Nursery0.1790.1230.2890.4790.2130.2970.4420.2880.299

在表2中，加粗的数值为所在行的最小值，即在某一数据集上的最小分类错误率。从中可看出，ID3在这几个数据集中的判错率都比较低，分类效率高，尤其在数据点较小的Hayes-roth上的平均分类错误率达到最低，体现了其对小数据集具有较好的鲁棒性，在该数据集上，MLin的表现比ID3略差。观察其余多个数据集的分类情况，除了Tic-Tac-Toe在基于IOF的k-NN上的分类效果最好外，其余的4个数据集均在基于MLin的k-NN上的分类错误率最低。尤其在Mushroom上，MLin方法的错误率仅有0.002；并且在Balance-scale上，MLin的准确率比Lin和Lin1的均高出近20%，比ID3高出了近10%的准确率。

图2 k-NN(k=3)十折交叉验证错误率折线图

为了对ID3、MLin、Lin和Lin1的分类结果进行更深入的比较，在k=3时，对其十折交叉验证的错误率画折线图进行可视化，见图2。图中包含6个子图，分别是6个数据集的十折交叉验证错误率折线图，其中横坐标为“avg.”的点的纵坐标值为十折交叉验证的平均错误率。显然可看出Lin1所对应的折线基本处于图的上方，错误率居高，而MLin所在折线几乎都在图的下方，错误率较低。在Hayes-roth的子图中，ID3所在折线明显地处在MLin的下方，这与表2的结论相对应。而在Balance-scale、Car Evaluation和Mushroom这3个子图中，MLin的表现明显优于其他方法。可见，MLin在各数据集的分类具有较高的准确率，ID3的表现处于MLin和Lin之间。综合表2和图2来看，Lin1的综合表现比较差，而MLin的表现都优于Lin，这也验证了MLin在有监督学习分类问题上的度量具有合理性和效用性。

为了比较在不同k值，k-NN方法在各数据集上的分类效果，将数据集分割出30%的数据作为测试集进行测试。在图3中给出了MLin、Lin、Lin1方法在不同k值下k-NN在各数据的测试集上的分类错误率折线图。纵观图3中的6个子图，MLin的错误率的折线几乎都处在图的最下方，而Lin1的分类效果则比较一般。同时可发现，在小数据集上(Hayes-roth，Balance-scale)，MLin的表现比较一般，随着数据集规模的增大，MLin方法下的错误率均较低，如在Nursery数据集上，MLin方法的错误率低于0.05，且明显低于其他方法的错误率。

图3 在不同k值下k-NN的错误率折线图

作为数据驱动的相似性度量方法，并不适合处理小规模数据，若数据集太小，会导致估计的条件概率与实际分布的条件概率有较大的误差。再从时间代价上看，MLin在计算实例的相似度的复杂度比Lin和Lin1相似度方法的复杂度大，再结合k-NN进行分类验证，自然会比ID3花费更多的时间。

元素分析-同位素比质谱（EA-IRMS）分析结果以δ表示，它反应了样品和国际标准物质之间同位素丰度比的相对差异：

4 结束语

本文提出了Lin相似性的改进方法MLin，应用于分类数据的分类问题。MLin是基于信息论和属性值的类条件概率的，将数据的类信息、数据分布考虑入内，属于数据驱动的相似性度量方法。本文中，利用k-NN结合相似性度量方法，对UCI的6个数据集进行实验，结果显示MLin的分类错误率均较低，但在小规模的数据集上的效果比较差，并且也证实了数据驱动方法在小数据集上的表现都会比较差，由此可见MLin更适合应用于数据规模较大的数据中。未来可对其做进一步的扩展和应用，对混合数据进行相似度的度量[15-16]和对文本进行分析[17-18]。

参考文献：

[1] Lin Liang, Wang Guangrun, Zuo Wangmeng, et al. Cross-domain visual matching via generalized similarity measure and feature learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(6):1089-1102.

[2] Boriah S, Chandola V, Kumar V. Similarity measures for categorical data: A comparative evaluation[C]// Proceedings of 2008 SIAM International Conference on Data Mining. 2008:243-254.

[3] Xie Jierui, Szymanski B, Zaki M. Learning dissimilarities for categorical symbols[C]// The 4th Workshop on Feature Selection in Data Mining. 2010:97-106.

[4] Cheng Victor, Li Chun-hung, Kwok J T, et al. Dissimilarity learning for nominal data[J]. Pattern Recognition, 2004,37(7):1471-1477.

[5] Le Siquang, Ho Tubao. An association-based dissimilarity measure for categorical data[J]. Pattern Recognition Letters, 2005,26(16):2549-2557.

[6] Alamuri M, Surampudi B R, Negi A. A survey of distance/similarity measures for categorical data[C]// 2014 IEEE International Joint Conference on Neural Networks. 2014:1907-1914.

[7] Sparck J K. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of Document, 1972,28(1):11-21.

[8] Wang Yue, Ge Jidong, Zhou Yemao, et al. Topic model based text similarity measure for Chinese judgement document[C]// International Conference of Pioneering Computer Scientists, Engineers and Educators. 2017:42-54.

[9] Burnaby T P. On a method for character weighting a similarity coefficient, employing the concept of information[J]. Mathematical Geology, 1970,2(1):25-38.

[10] Lin Dekang. An information-theoretic definition of similarity[C]// Proceedings of the 15th International Conference on Machine Learning. 1998:296-304.

[11] Stanfill C, Waltz D. Toward memory-based reasoning[J]. Communications of the ACM, 1986,29(12):1213-1228.

[12] Eskin E, Arnold A, Prerau M, et al. A geometric framework for unsupervised anomaly detection: Detecting intrusions in unlabeled data[M]// Applications of Data Mining in Computer Security. Springer, Boston, MA, 2002:77-102.

[13] Cover T, Hart P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967,13(1):21-27.

[14] Quinlan J R. Induction of decision trees[J]. Machine Learning, 1986,1(1):81-106.

[15] 鞠可一,周德群,吴君民. 混合概念格在案例相似性度量中的应用[J]. 控制与决策, 2010,25(7):987-992.

[16] 赵亮,刘建辉,王星. 基于Hellinger距离的混合数据集中分类变量相似度分析[J]. 计算机科学, 2016,43(6):280-282.

[17] 孙怡帆,李赛. 基于相似度的微博社交网络的社区发现方法[J]. 计算机研究与发展, 2014,51(12):2797-2807.

[18] 陈彦萍,杨威,唐成务,等. 基于语义相似度的数据服务分类方法[J]. 信息技术, 2017(12):93-96.

作者

郑碧如，吴广潮

出处

《计算机与现代化》 2018年第05期

上一篇：基于船舶融合点迹行为识别的雷达监视系统

下一篇：基于fastText的中文文本分类

《计算机与现代化》2018年第05期文献

基于LSTM的临床血液需求预测方法作者：郑亚鹏，樊璐

基于移动通信大数据的城市人口空间分布统计作者：周天绮

基于模糊推理的构件度量作者：陈晓，孙英昊，赵攀，刘倩

基于VSTO的文档审阅批注自动导出技术作者：李建波

基于Docker的MPI和OpenMP混合编程作者：赵博颖，肖鹏，张力

基于堆叠降噪稀疏自动编码器的软件缺陷预测作者：薛参观

SecDr：一种内容安全的Docker镜像仓库作者：魏兴慎，苏大威，屠正伟，刘苇，祁龙云，吕小亮，杨斌

基于CP-ABE的隐藏属性外包解密访问控制作者：陈成，努尔买买提黑力力

双重触发的嵌入式系统内核安全访问控制作者：黄姝娟，朱怡安，高武奇，罗钧旻

基于极限学习机的武器装备作战效能全局敏感性分析作者：董雪，张德平

基于深度强化学习DDPG算法的投资组合管理作者：齐岳，黄硕华

基于跳跃显露模式挖掘算法的癌症分类作者：乔媛，廖小平，邵开霞

基于马尔科夫链的大学生自主学习能力预测方法作者：刘德春，张秀国，姜微

面向中亚的大学汉语辅助学习软件设计与教学应用作者：杨勇，赖如，任鸽

延迟抖动在TFRC拥塞控制策略中的应用作者：谭志勇，赵甫哲

基于内容分析的网络协议指纹识别作者：夏琨，丁波，刘俊，刘子豪，林亮成

一种平稳子空间分析的快速不动点算法作者：林原灵，陈前

一种快速的双重层次包围盒碰撞检测算法作者：刘超，蒋夏军，施慧彬

FlexRay动态段消息调度优化算法作者：张良玉，王义，张育贵，刘志超，杨梅

基于加权中值滤波的MST立体匹配算法作者：赵大成，许道云

基于Gabor滤波的语音识别鲁棒性研究作者：缑新科，徐高鹏

基于船舶融合点迹行为识别的雷达监视系统作者：陈晓利，祁云嵩，林嘉炜

基于信息论方法的分类数据相似性度量作者：郑碧如，吴广潮

基于fastText的中文文本分类作者：代令令，蒋侃

杂志信息网