快捷分类

一种局部属性加权朴素贝叶斯分类算法

更新时间：2016-07-05

朴素贝叶斯(Naive Bayes)是一种简单而且高效的分类模型，它在属性条件独立性假设的前提下利用贝叶斯定理进行分类[1].NB模型的属性条件独立性假设在现实中难以成立，原因主要有两个：1)对于给定的类属性，属性之间并不总是相互独立的，它们之间通常存在依赖关系；2)数据集中的属性对于类属性归属的影响并不总是相同的，如数据集中的冗余属性对类属性的归属没有影响.

国际米兰×海鸥表球迷专属限量陀飞轮腕表，搭载海鸥著名ST8230陀飞轮机心，腕表表盘与表带采用国际米兰经典蓝黑条纹涂装，12点位铭刻国际米兰LOGO，6点位为镂空陀飞轮，表壳采用316L精钢制成，搭配经典大表冠设计，透底后盖尽显机械与艺术美感。

为了弱化属性条件独立性假设的束缚，提高NB的分类性能，不同学者提出了多种改进方法.这些方法大致可以分为3类：

第1类称作准朴素贝叶斯，准朴素贝叶斯的基本思想是在属性之间引入依赖关系来放松属性条件独立性假设，这使得准朴素贝叶斯模型具有比NB更复杂的网络结构.由于和其他贝叶斯网络结构类型相比，树形结构可以在多项式时间内被有效学习，一种简单的做法就是将拓展结构限定为树形结构[2]，例如，树增强型朴素贝叶斯分类器(Tree Augmented Naive Bayes，TAN)[3]和(Super Parent-TAN，SP-TAN)[4].

第2类方法通过属性选择或属性加权来提高NB的分类性能，数据集中的冗余属性不仅增加了分类模型学习过程中的计算量，同时还会降低分类的准确率，所以属性选择经常作为提高分类器性能的方法[5-7].和准朴素贝叶斯方法相比，属性选择不会改变NB模型的结构，同时可以有效提高NB的分类性能[8-9].但是实际中属性对类属性的归属的影响不同，而属性选择不能区分不同属性在分类过程中的重要程度.

根据每个因子的原始样本序列，计算出其均值μ和标准差σ，然后遍历序列的每一个原始测值V，如果满足：|V-μ|≥3σ，即判定该值为离群点，予以剔除。

属性加权通常看作是比属性选择更一般化的方法，不仅可以排除冗余属性，还可以区分不同属性在分类过程的重要程度.NB模型的属性条件独立性假设本质上是假定了各个属性对类属性的贡献相同，通过属性加权可以区分不同属性对类属性归属的不同影响.

假设属性Aj是名称型的，aj为属性Aj在测试实例中对应的值，则属性值aj的条件概率计算式为

作为先进、高精密金属切削机床设备以及工装夹具制造方案引领者，哈挺凭借着125年的丰富经验，始终站在技术革新的前沿，不仅仅能为客户提供机床，还能够为用户提供整套的解决方案，包括车削、铣削、磨削与工装夹具等方面。全套的解决方案是一个复杂的系统工程，需要多方专业技术通过紧密的合作来完成，在本次发布会中，哈挺集团再次表示，哈挺希望通过携手世界一流的合作伙伴，不断为用户提供高附加值的解决方案。

第3类方法通过局部实例加权降低属性条件独立性假设对分类性能的影响.文献[15]将局部实例加权技术应用于NB模型，为每一个测试实例基于加权近邻实例建立局部实例加权朴素贝叶斯(Locally Weighted Naive Bayes, LWNB)模型，但仅对实例加权，忽略了不同属性对分类性能的影响.

实际中同一属性对不同实例分类的贡献可能是不同的，为了获得测试实例准确的属性权重，本文作者将懒惰式学习方式和属性加权方法相结合，提出在测试实例的近邻集合上学习测试实例的属性权重，使得不同实例可能对应不同属性权重的局部属性加权朴素贝叶斯(Locally Attribute Weighted Naive Bayes，LAWNB)模型.本文使用优化算法求解测试实例的属性权重向量，这样获得的属性权重不仅可以更准确的反映每个测试实例属性对自身分类的影响，还可以用来整体改善局部分类模型的性能.实验结果表明本文方法获得的测试实例的属性权重和整个数据集上求得的全局属性权重相比能够更准确的反映测试实例属性对其自身分类的贡献，同时可以显著提高NB模型的分类性能.

本文的主要贡献如下：1)针对全局属性权重不能准确反映每个测试实例属性对其自身类属性归属影响的问题，提出了一种学习每个测试实例属性权重的方法；2)不同于传统的基于加权近邻实例建立局部分类模型，本文提出在测试实例的近邻集合上用优化算法学习每个测试实例的属性权重，并建立局部属性加权模型.

1 定义与背景

本节对文中用到的定义、符号及一些背景知识进行介绍.

1.1 NB模型

本文用符号D={x(0), x(1), …, x(n-1)}表示包含n个实例的集合，表示实例集合中的第l个实例，s为数据集中的属性个数(不包括类属性)，Ai表示实例的第i个属性，表示第l个实例属性Ai的取值.

准朴素贝叶斯模型和NB模型都基于贝叶斯定理[1]为

(1)

僧无可，生卒年不详，河北道幽州范阳县（今河北省涿州市）人，贾岛从弟，素有诗名。作有《奉和段著作山居呈诸同志三首次本韵》。段著作为段成式，据此知段成式作有《山居呈诸同志三首》诗，今佚。《金石萃编》卷一○八《寂照和尚碑》，“宣德郎、守秘书省著作郎、充集贤殿修撰、上柱国段成式纂”，“少华山树谷僧无可书”。清毕沅《关中金石记》卷四：“《安国寂照和尚碑》，开成五年正月立，段成式撰文，僧无可正书。”张延峰《咸阳安国寺探赜》［1］载：“题款后刻1行44字，文为‘开成六年岁次辛酉正月葵酉朔六日戊酉门人圆进……等同建’。落款开成六年实为会昌元年（公元841年）。”如此知僧无可与段成式在开成六年①前后有交游。

(2)

式中，P(ai|c)表示给定类属性c条件下第i个属性取值ai的条件概率.

TAN，SP-TAN等准朴素贝叶斯模型分解形式

(3)

式中：Pa(Ai)表示属性Ai依赖的属性集合，即结构中属性节点Ai的父节点集合(不包括类属性节点).集合Pa(Ai)中包含的属性节点越多，获得准确概率估计需要的数据就越多，模型的计算量就越大.

1.2 相似性度量

1)与LWNB模型相比，本文提出的LAWNB模型在9个数据集上的准确率显著提高，在8个数据集上没有显著不同，在3个数据集上较差，其中在ionosphere数据集上提高了6.22%，在diabetes数据集上提高了4.87%，最差的数据集是sonar，准确率降低了8.75%.实验结果表明局部属性加权朴素贝叶斯模型的分类性能可与局部实例加权朴素贝叶斯模型相比.

令d(l)表示第l个训练实例x(l)到测试实例x的距离.在距离度量过程中，若属性Ai是名称型，则第l个训练实例和测试实例属性Ai取值的差满足

(4)

未来研究方向有二:(1)探讨中央或省级层面的制度对地方政府人才政策扩散和创新的影响，展开跨层次或中介作用分析，探索人才政策的垂直扩散和创新机制。(2)探讨人才政策扩散和创新各种渠道之间的交互作用，深化对人才政策横向扩散和创新机制的认识。〔本文受到江苏高校“新型城镇化与社会治理”协同创新中心和江苏高校哲学社会科学优秀创新团队建设项目(项目号:2015ZSTD010)的资助〕

2 局部属性加权朴素贝叶斯模型

为了研究测试实例属性对其自身分类的贡献，本文提出了局部属性加权朴素贝叶斯模型.

2.1 近邻集合上的概率计算

为了避免零概率的出现，采用文献[16]提出的M估计对先验概率和条件概率进行平滑处理.近邻实例集合上类属性cl的先验概率计算公式为

(5)

式中：r表示近邻实例集合中实例的个数；c(i)表示近邻实例集合中第i个训练实例的类属性值；表示第i个实例的权重；本文m取1，|C|表示类属性取值的个数，βc表示类属性缺失的实例的个数，指示函数I定义为

式中，x和y表示两个实例中同一属性的取值.

使用属性加权来改善NB模型的性能，其难点在于如何获得能够准确反映属性对类属性归属影响的权重[10-14].对于NB模型，传统的属性加权方式主要采用不同的度量方式来增加强预测属性的属性权重同时减小弱预测属性的权重，文献[10]使用属性和类属性的增益比作为属性权重.文献[11]用属性在决策树中的最小深度来为属性加权.近些年一些研究人员提出通过优化权重来整体改善分类器预测性能.文献[12]提出用局部优化算法求属性对于不同类属性的权重.文献[13]基于差分进化算法求属性权重.文献[14]通过优化算法求负条件对数似然或均方误差的最小值来设置属性权重，这种方式不仅降低了违背属性条件独立性假设对分类模型的影响，还使得分类器的整体性能得到改善.但这些属性加权方法都是从整个数据集合上学习属性权重，这样的属性权重对于每个测试实例只在平均意义下是最好的，并不能真实反映每个测试实例的属性对自身分类的重要程度.

VITPILEN 701是一辆讲究轻量化的摩托车，157斤的车重配上75马力、72牛·米的最大动力输出，可谓是性能味道十足。更为重要的是，它所配备的发动机无论在任何转速下都能拥有平顺的工作状态，车身的抖动几乎可以忽略不计。在高速巡航的状态下，VITPLINE 701仍旧有着十分出色的稳定性，而与这样出色性能并驾齐驱的是它在设计上令人难以忘怀的优秀细节。

P(aj|cl)=

(6)

式中：|Aj|表示属性Aj取值的个数；表示第i个实例的第j个属性取值；aj表示测试实例x的第j个属性的取值；βj,cl表示给定类属性cl条件下属性Aj缺失值的实例个数.

2.2 测试实例的属性权重计算

文献[17]提出用最大条件对数似然(Conditional Log-Likelihood, CLL)来评价贝叶斯网络结构能获得更准确的类概率估计.因此，本文尝试通过在测试实例的近邻集合上求最大条件似然对数的最大值来获得测试实例的属性权重向量w.本文在实例集合D上用条件对数似然函数定义的目标函数JCLL为

(7)

其中

(8)

由于系统处理的是射频信号，故需要注意布线时的阻抗问题，本设计采用T-G-G-B(顶层-地-地-底层)的层叠结构，通过调整线宽及层间距达到阻抗匹配。对于高速信号走线，由于趋肤效应造成走线周围具有电磁场，容易造成相邻线材的耦合干扰。为使走线间耦合干扰达到可以忽略，布线时需要满足3W原则(走线中心间隔满足3倍线宽)。

(9)

基于目标函数和相应的梯度，使用文献[18]的L-BFGS-M优化程序来求测试实例x的近邻集合Dk(x)上使得函数-JCLL(w)取最小值的解作为测试实例的属性权重向量wx，其中测试实例的每个属性的权重wi满足0 ≤wi ≤1.算法1给出在近邻集合上求测试实例属性权重的算法.

算法1.AttributeWeights(Dk(x), JCLL(w))

输入：近邻实例集合Dk(x)，目标函数JCLL(w)；

输出：测试实例属性权重向量wx.

以“百分数”为例，教师要注重课堂教学联系日常生活，利用生活化中的“百分数”实例，设置生活化“百分数”问题，将“百分数”知识具体化。在讲解课题内容中，教师要联系学生数学水平以及熟悉的生活化元素，巧设基于“百分数”的生活化问题，比如，超市中一副乒乓球拍要50元，但小明只有35元，请问超市乒乓球拍打几折，小明才能获得喜欢的乒乓球拍，用“百分数”该如何表示？提出问题后，教师可以在引领学生自主思考的同时进行合作学习，在利用“百分数”知识中进行解答，在思考、探究过程中提升数学实际问题解决能力，达到融会贯通、学以致用的目的，在生活化数学教学中发展数学综合素质，实时上好小学数学课。

01:用式(5)和式(6)计算数据集Dk(x)中的P(c)和P(ai|c)

近日，环保风暴再次席卷全国。山东、湖北、江苏、浙江、山西、京津冀等地相继出台了针对化工园区、化工厂的整治、限产、关停、保留方案。而另一方，巴斯夫、埃克森美孚等国际石化巨头计划在中国独资建厂的新闻不断曝出。

02:将P(c)和P(ai|c)代入目标函数JCLL(w)的相关式(7)和式(9)

03:基于式(7)和式(9)用L-BFGS-M优化程序计算函数- JCLL(w)取最小值的解向量w

04:wx width=1,height=1,dpi=110 w

05:return wx

在近邻集合上利用优化算法学习测试实例属性权重的算法的时间复杂度取决于优化算法求解过程的收敛速度，而本文采用的优化算法是一种L-BFGS算法，该算法比较适合在大规模数据集上进行计算，它具有牛顿法收敛速度快的特点.

2.3 局部属性加权朴素贝叶斯模型和算法

任意一个测试实例x在其近邻实例集合Dk(x)上的属性加权后验概率公式为

(10)

满足条件

∑c′P(c′)=1,∑jP(aij|c)=1，

式中：wx = (w0, w1, …, ws-1)是测试实例的属性权重向量；wi是测试实例属性i的权重；aij表示属性Ai的第j个取值；P(c)表示集合Dk(x)上类属性c的先验概率；P(aij|c)表示集合Dk(x)中给定类属性c条件下属性Ai的第j个取值aij的概率估计.

由于计算测试实例的每个类属性后验概率的式(10)中的分母都相同，测试实例x的属性加权模型可简化为

(11)

式中i = 0, 1, …, s-1.

将每个测试实例的属性加权朴素贝叶斯模型称为LAWNB.算法2给出了建立LAWNB模型的一般过程.

算法2. LAWNB(D,x, k, JCLL(w))

输入：训练实例集合D，测试实例x，近邻实例个数k，目标函数JCLL(w)；

输出：测试实例x的类属性预测值cx

农副食品加工业是农业产业纵深发展的产物，对农产品进行一系列的加工活动，能够有效提高农产品的利用效率、增加农产品的附加值，从而提高农民收入、促进农业繁荣、推动农村发展。诚然，农副食品加工业带来的诸多益处是显而易见，但是，也应当注意到当前其发展仍存在一些问题，尤其是资源利用效率不高，投入产出不配比的现象。对于农副食品加工业来说，效率的高低直接影响到农民收入和农业的发展，因此，进一步探索农副食品加工业的效率变动，对于提高农业资源配置效率，解决“三农”问题具有重要现实意义。

01:从数据集D中寻找距离测试实例x最近的k个训练实例组成近邻实例集合Dk(x)

欧式距离的时间复杂度O(s)为每个测试实例x建立近邻实例集合Dk(x)过程中需要计算O(n)个距离，其中n为训练集合中的实例个数.此外对计算得到的n个距离使用堆排序，堆排序的时间复杂度为O(nlb n)，所以为每个测试实例寻找k个近邻实例的时间复杂度为O(n(s+lb n)).

Study on the detection and evolution of intense convective cloud with data from the

02:wx width=1,height=1,dpi=110 AttributeWeights(Dk(x), JCLL(w))

03:根据式(11)计算各类属性c对应的后验概率

04:cx width=1,height=1,dpi=110 最大后验概率对应的类属性

05:return cx

算法2描述了为每个测试实例建立LAWNB模型的过程，其中需要进行实例选择和计算测试实例的属性权重.这个过程增加了模型的计算量.获得属性权重后，在近邻集合上为单个测试实例建立LWNB模型和NB模型的时间复杂度相同.此外，较小的训练集合可以显著减少单个模型求属性权重的计算时间.因此，当训练集规模较大时，本文为单个测试实例建立模型的时间比全局属性加权(Weighting attributes to Alleviate Naive Bayes' Independence Assumption，WANBIA)模型的训练时间显著减少.本文LAWNB模型预测过程中需要存储训练集，这使得本文算法的空间复杂度较高，同时本文算法的时间复杂度和测试集的规模成线性关系.

3 实验分析

实验运行环境的CPU为3 GHz，内存为4 GB，操作系统是Linux.本节在20个UCI的数据集[19]上对LAWNB模型性能进行评价.表1给出了实验数据集的内容.

表1 实验数据集内容

Tab.1 Introduction of the experimental datasets

数据集名称数据集大小类属性取值个数属性个数是否有缺失值anneal898638是anneal.ORIG898538是audiology2262469是autos205625是breast-cancer28629是credit-a690215是disbetes76828否glass21469否hypothyroid3 772429是ionosphere351234否iris15034否kr-vs-kp3 196236否mushroom8 124222是segment2 310719否sick3 772229是sonar208260否soybean6831935是vote435216是vowel9901113否zoo101717否

下面分析和实验相关的一些预处理步骤.1)数值属性：本文的局部属性加权朴素贝叶斯模型不能处理数值属性，使用文献[20]提出的监督属性离散化方法对数值属性进行离散化处理.2)缺失值：本文采用式(5)和式(6)中的方式处理缺失值.

本文模型在weka-3-8平台实现，在每个数据集上进行10次10重交叉验证，每个分类器都是在完全相同的交叉验证集合上进行训练和预测，最后将获得的100个准确率的平均值作为分类器在数据集上的准确率.使用双尾假设t检验对每个数据集上LAWNB模型和对比模型的显著性进行分析，显著性水平为0.05.

在表2中对20个数据集上的LAWNB模型和用于比较的模型的准确率情况进行了比较统计，其中，v的值表示20个数据集中LAWNB模型准确率显著更高的数据集个数，t表示准确率没有显著不同的数据集个数，l表示准确率显著更差的数据集个数.为了进一步描绘准确率的一般情况，计算了每个分类器在20个数据集上的平均准确率,在表2中的倒数第2行给出.平均准确率反映了分类器在20个数据集上的最基本的综合性能.表2给出了每个数据集上各算法的准确率，标准差，显著性对比结果及各算法在20个数据集上的平均准确率.

表2 7种分类模型的准确率和标准差

Tab.2 Classification accuracy and standard deviation of the 7 kinds of classification models %

数据集名LAWNB50NBWANBIALWNB50TANAODEWAODEanneal99.33‱1.0786.62±3.71浣98.30±1.29浣98.24±1.57浣96.80±1.72浣96.81±2.12浣98.47±1.42浣anneal.ORIG95.03‱2.3374.78±4.74浣96.43±2.06 92.83±2.83浣92.26±2.57浣93.64±2.43浣89.93±3.00浣audiology78.19‱8.4870.76±9.83浣77.56±9.4677.49±8.7553.20±10.4浣70.90±9.92浣75.31±9.34浣autos76.31‱9.3356.99±10.3浣75.03±8.8776.60±9.3277.29±10.273.79±9.79浣78.90±8.91 breast-cancer70.74‱7.5772.67±7.84 71.96±8.4473.81±8.08 70.57±7.8373.33±7.53 71.90±8.54credit-a84.71‱4.5877.72±5.12浣86.04±4.80 82.80±5.05浣83.55±4.33浣85.97±4.48 84.26±4.56diabetes75.54‱4.9475.59±5.1275.65±4.6670.67±4.81浣72.95±4.90浣76.21±4.6875.74±4.44glass71.91‱9.2648.61±11.4浣69.77±11.2浣71.37±10.656.65±11.9浣62.15±11.0浣62.02±11.7浣hypothyroid97.42‱0.9295.33±1.08浣99.22±0.51 96.30±1.06浣92.60±1.19浣93.62±1.22浣93.57±1.21浣ionosphere89.29‱4.9882.54±5.96浣91.19±4.79 83.07±6.36浣89.02±4.9091.61±4.70 92.96±4.17 iris95.27‱5.3095.67±4.9694.73±5.5595.53±4.9391.73±7.10浣94.40±5.7495.60±5.03kr-vs-kp97.80‱0.9287.80±1.81浣93.41±1.40浣97.76±0.8188.75±1.77浣91.07±1.60浣94.16±1.30浣mushroom100.00‱0.095.76±0.71浣99.90±0.11浣100.00±0.099.47±0.37浣99.95±0.08浣99.99±0.04浣segment97.22‱1.1080.11±2.55浣94.48±1.47浣96.60±1.19浣92.77±1.74浣92.90±1.72浣95.00±1.44浣sick97.54‱0.8592.68±1.25浣97.41±0.74浣96.75±1.03浣96.31±1.39浣97.34±1.0697.78±0.95 sonar79.06‱8.4667.77±11.8浣76.96±8.4987.82±6.14 76.92±8.36浣80.52±8.1077.63±10.8soybean93.19‱3.2692.70±3.0793.09±2.7093.16±2.9188.21±3.77浣92.78±2.9193.88±2.41 vote96.45‱2.7190.05±4.57浣95.25±3.24浣95.32±3.34浣92.33±4.09浣94.26±3.58浣94.51±3.79浣vowel94.02‱2.6562.92±5.15浣60.82±4.47浣95.16±2.63 87.14±3.50浣89.27±3.35浣92.10±3.13浣zoo95.93‱6.6395.04±6.9995.03±6.54浣96.73±6.174.57±15.2浣94.44±7.52浣97.13±5.31 平均准确率89.2580.1187.1188.9083.6587.2588.04v/t/l—15/4/19/7/49/8/317/3/012/5/310/5/5

·，°分别表示LAWNB模型在数据集上的准确率显著下降或显著改进.

本文做两个实验，第1个实验分析LAWNB模型准确率在20个数据集上随k值的变化趋势，基于此确定LAWNB模型使用的参数.第2个实验将LAWNB和NB模型[1]， LWNB[15]，WANBIA模型[14]， TAN，均单依赖贝叶斯分类器(Aggregating One-Dependence Estimators, AODE)模型[21]，加权均单依赖贝叶斯分类器(Weightily Averaged One-Dependence Estimators, WAODE)模型[22]进行了比较.

3.1 参数k设置

本节对20个数据集上LAWNB模型的准确率随k值的变化规律进行了分析.图1中给出了20个数据集上模型准确率随k值从1～300的变化趋势.这些数据集上准确率的变化大致可以分为3类.

1)有3个数据集sonar，autos和vowel上的准确率随k值递增有明显的不断下降趋势.

2)有2个数据集上的准确率有明显波动：glass上的准确率波动最为明显，在1 ≤k≤ 70之间有起伏，k = 70时达到最大，然后出现连续下降；anneal.ORIG上的准确率先减小后增大，k = 80达到最大后又减小，最后趋于稳定.

3)有15个数据集上的准确率随着k值变化先增大后减小直至趋于稳定，这个过程中可能伴有微小波动，但不影响整体走势.其中13个数据集的准确率最大值出现在10 ≤k≤ 100范围内，剩余两个数据集在这个范围内的准确率最大值和整个范围内准确率最大值的差小于1%.

图1 20个数据集上LAWNB的准确率随k值的变化 Fig.1 Accuracy of LAWNB on the 20 datasets when varying k

图2中给出了LAWNB模型在20个数据集上平均准确率随k值的变化趋势.LAWNB模型的平均准确率在10 ≤k ≤ 70范围内变化不大，在k = 60时平均准确率最大值为89.32%；当k = 10，50，70时，平均准确率都为89.25%，和最大平均准确率相差不大；当k≥ 70后有下降趋势，k = 300时平均准确率最小值为87.97%.

图2 平均准确率随k值的变化曲线 Fig.2 Curve of average accuracy when varying k

基于以上分析，可以得出结论：邻域越大并不意味着LAWNB模型的准确率越高，本文提出的局部属性加权朴素贝叶斯模型偏好较小的邻域.考虑到文献[15]建立的局部实例加权朴素贝叶斯模型中取k值为50，为了对比实验的公平性，也为了在计算量和准确率之间建立一种平衡，基于以上实验分析，在接下来的实验中将LAWNB模型在所有数据集上的近邻实例个数设定为50.

综上所述，关节镜半月板成形术可有效减轻盘状半月板损伤患者各相关症状，同时促进膝关节功能的恢复，且术后并发症发生率较低，临床应用价值显著。

3.2 LAWNB和LWNB模型比较

LAWNB模型和LWNB模型相比，在15个数据集上显著提高，在4个数据集上没有显著不同，只在1个数据集上较低，而且在20个数据集上的平均准确率比NB模型高9.14%，是本文所有对比模型中最大的，实验结果表明局部属性加权是一种有效提高朴素贝叶斯性能的方式.

3.3 LAWNB和WANBIA模型比较

LAWNB模型与WANBIA模型相比，在9个数据集上的分类准确率显著更高，在7个数据集上没有显著不同，在4个上显著较差，其中数据集vowel上的准确率提高了33.2%，在4个较差的数据集上准确率的差值都不超过2%.为了更直观地说明学习测试实例属性权重的意义，本文从vowel集合中选择了3个实例，其中WANBIA模型预测正确一个，而LAWNB模型对3个实例的预测都正确.然后，对两种模型计算出的属性权重进行了比较分析.

图3中给出了vowel整个数据集合上的全局属性权重和3个测试实例的属性权重，其中dataset表示WANBIA模型在整个vowel集合上求得的属性权重，inst1，inst2分别表示用WANBIA模型预测错误的测试实例的属性权重，inst3表示两模型都预测正确的实例的属性权重,i表示为属性序号.

图3 Vowel集合上的属性权重曲线 Fig.3 Curves of attributes weights in vowel datasets

从图3(a)和图3(b)中可以看出WANBIA模型预测错误的两个测试实例的属性权重向量和整个数据集合上的全局属性权重向量显著不同，而WANBIA模型正确预测的一个测试实例的属性权重向量和全局属性权重向量相近，同时从图3(b)中可以看出不同测试实例之间的属性权重也存在明显差异.图3表明从整个数据集合上学习到的全局属性权重有时并不能准确反映每个属性对测试实例分类的贡献，这可能会导致一些实例的错误预测，而表2中的实验结果进一步说明学习每个测试实例的属性权重可以用来改善分类器性能.

根据JTGF40-2004的规定，用Superpave方法设计出的沥青混合料应采用马歇尔试验方法检验，其最佳沥青用量的马歇尔体积性质应满足图纸设计要求。

网络结构上的差异使得式(1)具有不同的分解形式.基于属性条件独立性假设的NB有如下分解[1]

3.4 LAWNB与4种NB改进模型比较

实例间的相似性是本文在近邻集合上学习测试实例属性权重的基础，实际中有很多度量方式可用于度量实例间的相似性，本文使用标准Euclidean距离函数度量实例间的相似性.

2)与TAN模型相比，有17个显著更好，3个没有显著不同，在audiology数据集上提高了24.99%，在zoo数据集上提高了21.35%，在glass数据集上提高了15.26%，LAWNB模型在20个数据集上的平均准确比TAN模型高5.6%，这表明通过局部属性加权比通过简单的增加属性间依赖关系更有利于改善朴素贝叶斯的分类器性能.

3)与AODE模型相比，有12个显著改善，5个没有显著不同，显著较差的有3个，在数据集glass上准确率提高了9.75%，在数据集audiology数据集上准确率提高了7.29%，在数据集kr-vs-kp上准确率提高了6.73%，最差的数据集breast-cancer上准确率降低了2.6%.

4)与WAODE模型相比，显著改善的有10个，没有显著不同的有5个，显著较差的有5个，在数据集glass上准确率提高了9.89%，在数据集anneal.ORIG上提高了5.10%，在数据集hypothyroid上提高了3.84%，最差的数据集ionosphere上准确降低了3.67%.

与以上几种准朴素贝叶斯分类模型相比的实验结果说明：本文提出的局部属性加权是一种有效改善朴素贝叶斯分类性能的方式，LAWNB模型可以作为当前最先进的准朴素贝叶斯分类模型的一种有效替代.

3.5 7个模型的运行时间分析

本节在hypothyroid数据集上对7个模型的运行时间进行了分析，将hypothyroid数据集等分为10个集合，选择第1个集合作为测试集，其他9个集合合并组成训练集，在训练集上训练模型，在测试集上进行预测，取10次实验中模型运行时间的平均值作为模型的运行时间，图4中给出了6个模型的运行时间随测试实例个数增长的变化趋势，其中l = 0对应各模型在训练集合上建立模型的时间，对于局部模型来说是建立第1个测试实例模型的训练时间.

目标函数JCLL(w)的梯度记作

图4 7个模型运行时间随测试实例数的变化曲线 Fig.4 Running time curves of each model varies with the number of test instances on the hypothyroid dataset

从图4中可以发现懒惰式模型LAWNB和LWNB的模型运行时间随着测试实例数递增呈现出线性递增的趋势，而全局模型的运行时间主要由模型的训练时间决定.因此，当测试集超过一定的规模，懒惰式模型的运行时间比全局模型更多.从图4中看出当测试实例数超过100后，本文LAWNB模型的运行时间比其他模型更多.从图4中还可知为单个实例建立局部属性加权LAWNB模型所用时间比WANBIA模型的训练时间显著更少，和NB、LWNB、TAN、AODE和WAODE模型的训练时间相近.对于较大规模的测试集，懒惰式模型预测过程需要花费较多时间，但懒惰式模型为深入研究每个具体实例提供了途径，这是研究懒惰式模型的根本意义所在.

4 结语

本文作者提出的LAWNB模型在建立过程中从测试实例的近邻集合上学习测试实例的属性权重，然后对测试实例预测过程中的属性进行加权.通过在多个数据集上与当前常见的4种改进NB分类器对比，实验结果表明：LAWNB模型不仅保持了NB模型的简单性，还显著改善了其分类性能.

今后可考虑将本文所提出的LAWNB模型应用于贝叶斯网络和其他更多的实际应用问题中，以解决属性重要程度的不准确度量对分类预测的影响.

参考文献(References):

[1] DUDA R O, HART P E, STORK D G. Pattern classification[M]. 2nd ed. New York: John Wiley & Sons, 2012: 20-23.

[2] KOLLER D,FRIEDMAN N. Probabilistic graphical models: principles and techniques[M]. London: MIT Press, 2009: 808-812.

[3] FRIEDMAN N, GEIGER D,GOLDSZMIDT M. Bayesian network classifiers[J]. Machine Learning, 1997, 29(2/3): 131-163.

[4] KEOGH E J,PAZZANI M J. Learning the structure of augmented Bayesian classifiers[J]. International Journal on Artificial Intelligence Tools, 2002, 11(4): 587-601.

[5] AHA D W. Tolerating noisy, irrelevant and novel attributes in instance-based learning algorithms[J]. International Journal of Man-Machine Studies, 1992, 36(2): 267-287.

[6] GUYON I,ELISSEEFF A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(6): 1157-1182.

[7] CHANDRASHEKAR G,SAHIN F. A survey on feature selection methods[J]. Computers & Electrical Engineering, 2014, 40(1): 16-28.

[8] LANGLEY P,SAGE S. Induction of selective Bayesian classifiers[C]// 10th International Conference on Uncertainty in Artificial Intelligence, 1994：399-406.

[9] HALL M A. Correlation-based feature selection for discrete and numeric class machine learning[C]// 17th International Conference on Machine Learning, 2000：359-366.

[10] ZHANG H,SHENG S. Learning weighted naive Bayes with accurate ranking[C]// 4th IEEE International Conference on Data Mining. Brighton, 2004:567-570.

[11] HALL M.A decision tree-based attribute weighting filter for naive Bayes[J]. Knowledge-Based Systems, 2007, 20(2): 120-126.

[12] TAHERI S, YEARWOOD J, MAMMADOV M,et al. Attribute weighted naive Bayes classifier using a local optimization[J]. Neural Computing and Applications, 2014, 24(5): 995-1002.

[13] WU J,CAI Z. Attribute weighting via differential evolution algorithm for attribute weighted naive Bayes [J]. Journal of Computational Information Systems, 2011, 7(5): 1672-1679.

[14] ZAIDI N A, CERQUIDES J, CARMAN M J,et al. Alleviating naïve Bayes attribute independence assumption by attribute weighting[J]. Journal of Machine Learning Research, 2013, 14(1): 1947-1988.

[15] FRANK E, HALL M,PFAHRINGER B. Locally weighted naïve Bayes[C]//19th Conference on Uncertainty in Artificial Intelligence, 2002: 249-256.

[16] CESTNIK B. Estimating probabilities: acrucial task in machine learning[C]// 9th European Conference on Artificial Intelligence, 1990: 147-149.

[17] GROSSMAN D,DOMINGOS P. Learning Bayesian network classifiers by maximizing conditional likelihood[C]//21st International Conference on Machine Learning, 2004: 361-368.

[18] ZHU C, BYRD R H, LU P, et al. Algorithm 778: L-BFGS-B: Fortran subroutines for large-scale bound-constrained optimization[J]. ACM Transactions on Mathematical Software , 1997, 23(4): 550-560.

[19] UCI machine learning repository.http://archive.ics.uci.edu/ml.2016.

[20] FAYYAD U M. Multi-interval discretization of continuous-valued attributes for classification learning[C]// 13rd International Joint Conference on Artificial Intelligence, 1993: 1022-1027.

[21] WEBB G I, BOUGHTON J R, WANG Z. Not so naive Bayes: aggregating one-dependence estimators[J]. Machine Learning, 2005, 58(1): 5-24.

[22] JIANG L,ZHANG H. Weightily averaged one-dependence estimators [C]// 9th Pacific Rim International Conference on Artificial Intelligence, 2006: 970-974.

作者

张伟，王志海，原继东，刘海洋

基金

分类号

出处

《北京交通大学学报》 2018年第2期

上一篇：基于GBDT的商品分配层次化预测模型

下一篇：双目视觉的原木径级快速检测算法

《北京交通大学学报》2018年第2期文献

基于深度时空卷积网络的民航需求预测作者：林友芳，康友隐，万怀宇，吴丽娜，张宇翔

基于GBDT的商品分配层次化预测模型作者：朱振峰，汤静远，常冬霞，赵耀

一种局部属性加权朴素贝叶斯分类算法作者：张伟，王志海，原继东，刘海洋

双目视觉的原木径级快速检测算法作者：陈广华，张强，陈梅倩，李建伟，尹怀永

基于弱关联频繁模式的超限行为挖掘优化作者：万芳，胡东辉

采用传播图论建模方法的Massive MIMO室内场景传播特性作者：刘留，刘妍，雷勇，吴钰浩

基于分簇的Ad Hoc网络媒体接入控制协议C-USAP 作者：熊轲，马换，刘强

基于分簇结构的移动自组织网络接入控制协议关键技术研究作者：刘强，袁万刚

列控-安全信息传输系统可靠性及安全性的形式化分析作者：高莺，张琦，陈黎洁，刘宏杰

车联网干线协调控制相位差自适应优化作者：柴琳果，蔡伯根，上官伟，王剑，王化深，陈俊杰

基于以太网的列车通信网络冗余结构可靠性分析作者：简捷，王立德，靳建宇，申萍

基于STPA方法的平交道口安全需求分析作者：刘宏杰，唐涛，金夏垚，杜恒

面向客运车站环境监测的WSN覆盖策略作者：邓胜

基于虚拟同步机控制技术的交直流互联电力系统电压稳定控制策略作者：孙丽敬，吴鸣，杨景熙，李蕊，张海，吕志鹏

基于遗传算法的直线感应电机帽型次级结构参数优化设计作者：吕刚，刘素阔

实测数据的350 km·h-1中国标准动车组空载合闸涌流特性研究作者：郭旭

大功率电力机车异步牵引电机的典型故障研究作者：张世

自适应无迹卡尔曼滤波动力电池的SOC估计作者：谢永东，何志刚，陈栋，周洪剑

杂志信息网