快捷分类

正负关联规则两级置信度阈值设置方法

更新时间：2009-03-28

0 引言

关联规则挖掘(Associated Rule Mining)是重要的数据挖掘研究课题。传统关联规则挖掘只研究A pagenumber_ebook=99,pagenumber_book=1316 B型规则［1－3］。实际上AB、AB和AB型负关联规则普遍存在，自项集负相关(Negative Relationship of Itemset)［4］提出以来，其研究得到广泛关注［5－15］。正负关联规则挖掘中，限制规则数量和提取真正有趣的规则是挖掘算法设计的关键［6］。传统算法通常采用支持度－置信度框架［1］来达到该目的。但是，当同时挖掘各型正负关联规则时，使用支持度－置信度框架理论可能会出现相互矛盾的规则［7］，如A pagenumber_ebook=99,pagenumber_book=1316 B和AB或AB和AB同时出现。为此，人们引入了相关性度量对支持度－置信度框架进行扩充和修改以避免其发生［6－10］。在相关度－支持度－置信度框架下的正负关联规则挖掘中，围绕相关性度量和支持度阈值设置的研究已比较完善。文献［8－9］采用卡方测量项集相关性。文献［6－7，10］针对卡方无法判断项集正相关还是负相关的不足，提出采用Lift度量。文献［11］对比分析了7种相关性度量方法的内在联系与区别，给出了它们各自的适用范围。文献［12］提出了约束正负关联规则挖掘中频繁项集与非频繁项集数量的一种两级支持度阈值法。在文献［12］基础上，文献［13］提出了多级支持度阈值法以进一步限制规则数量。文献［14］将多支持度法应用到正负关联规则挖掘算法中，有效地限制了规则数量。但是，在相关度－支持度－置信度框架下，现有正负关联规则置信度阈值设置方法还存在局限。文献［8］针对单级置信度阈值法阈值设置较低会产生过多低可信度规则和设置较高又会遗漏有趣规则的不足，提出四置信度阈值法，但各个阈值的设定并未考虑不同类型规则置信度间的内在约束。为此，文献［7，10］在考虑了规则置信度间的内在变化与约束关系后，以四种关联规则同时挖掘为前提，提出对A pagenumber_ebook=100,pagenumber_book=1317 B、AB类规则和AB、AB类规则分别设置不同置信度阈值P-mc和N-mc(P-mc+N-mc=1)的双阈值法，但该方法仍然难以有效控制低可信度规则的数量，并且易遗漏有趣规则。

对比实验组与参照组肝癌临床治疗效果情况（见表2），实验组肝癌临床治疗总有效率（81.40%）高于参照组（55.81%），两者差异明显（P＜0.05）。

本文结合规则的项集相关性和正负关联规则置信度随项集支持度取值大小变化的内在特点，提出了一种新的正负关联规则两级置信度阈值设置方法(Positive and Negative association rule's TWO Minimum Confidence，PNMC-TWO)。理论推演和实验结果均表明，新方法能更有效控制正负关联规则的数量和提取有趣关联规则。新方法充分结合了四种规则置信度的变化规律，对置信度阈值的设置不是盲目的，基于它所提取的知识或规则更可靠和有效。

1 预备知识

1．1 关联规则的支持度－置信度框架

设 I={i1，i2，…，in} 是问题域的项集，D={T1，T2，…，Tm}是事务数据库，|D|表示事务个数，Ti由事务标识符TIDi和对应的项集ITi描述，ITi pagenumber_ebook=100,pagenumber_book=1317 I，1 ≤i≤|D|。项集 AITi时称事务Ti支持A，sup_c(A)表示项集A在D中的支持度计数，则A在D中支持度sup(A)=sup_c(A)/|D|。设ms是支持度阈值，sup(A)≥ms时称项集A为频繁项集。

定义1 关联规则支持度。D中同时包含规则前件和后件的事务在D中的占比，简记sup。

定义2 关联规则置信度。D中同时包含规则前件和后件的事务在包含前件的事务中的占比，简记conf。

支持度－置信度框架:在D中筛选出同时满足支持度阈值(ms)和置信度阈值(mc)的强关联规则。

1．2 负关联规则支持度与置信度的计算方法

对非空项集A，B pagenumber_ebook=100,pagenumber_book=1317 I，且A∩B=，根据定义1，负关联规则支持度指的是项集A∪B、A∪B、A∪B的支持度，其计算方法［5］如下:

sup(A)=1－sup(A)

1.1一般资料2015年1月至2017年1月对我院的乙肝病毒患者350例进行研究分析,共有男性190例,女性160例,年龄5至79岁,平均42岁。

sup(A∪B)=sup(A)－sup(A∪B)

另一方面，长三角危险品运输缺乏科学的法律规范体系，监督管理方式不健全，法律规范的有关规定尚未得到有效落实，因此给危险品的道路运输管理带来重重困难。长江三角洲作为中央政府定位的中国综合实力最强的经济中心，经济处于高速发展阶段，危险品道路运输货运量与日俱增，但是与此同时，相关法律制度建设却相对滞后、执行力度弱，长江三角区道路运输迅猛发展，该区域有关危险货物道路运输法律规范的建设步伐较慢，导致监督管理体系不完善，难以对危险货物道路运输作业进行有效的规范。

sup(A∪B)=sup(B)－sup(A∪B)

其一，把必然王国与自由王国理解为两个不同的人类实践领域。他认为必然王国中的自然必然性王国是永恒的必然性王国，因为人与自然之间的物质变换过程存在于一切人类社会形式中。而与自然必然性王国相对的自由王国是指“存在于物质生产的彼岸，是作为目的本身的能力得到发展的自由活动领域或自由活动时间”[注]赵家祥：《必然王国与自由王国的含义及其关系》，《北京大学学报(社会科学版)》2013年第6期，第48页。。他认为，这种自由劳动是资本主义社会中资产阶级才得以享有的劳动状态。

sup(A∪B)=1－sup(A)－sup(B)+sup(A∪B)

现在我完全不像第一次看见自己时的感觉；而是像初次见到别的什么人。碧翠丝是我偷偷从镜子里瞥见的那个女孩，是在晚餐桌上一句话不说的女孩。现在，这个有着我的眼睛却没有流露出我眼神的人，是翠丝。

由定义2，负关联规则的置信度计算方法如下:

pagenumber_ebook=100,pagenumber_book=1317

1．3 正负关联规则的相关度－支持度－置信度框架

在正负关联规则挖掘中，为了避免矛盾规则的出现，可在支持度－置信度框架中加入项集相关性度量以进一步约束关联规则。项集的相关性度量［11］可定义如下:

KA，B的取值范围为［0，1］:KA，B ＞ 0．5 时 A 和 B 正相关;KA，B=0．5时 A和B相互独立;KA，B ＜ 0．5时 A和B负相关。

定理1［7］项集A和B正相关时仅需挖掘A pagenumber_ebook=100,pagenumber_book=1317 B和AB类规则;A和B负相关时仅需挖掘AB和AB类规则;A和B相互独立时不需挖掘规则。

定理1的实际应用中，通常会设正相关强度判定阈值k1和负相关强度判定阈值k2来降低挖掘出的规则数量和提取真正感兴趣的规则。由此可得相关度－支持度－置信度框架:1)获取满足正、负相关强度阈值的关联规则;2)提取满足ms和mc约束的强关联规则。

1．4 正负关联规则置信度间的关系

由前述负关联规则支持度和置信度的计算关系可知，正负关联规则置信度的计算均与规则的项集支持度紧密相关，并且四种正负关联规则的置信度间还有如下约束关系成立:

定理2 对非空项集A，B pagenumber_ebook=100,pagenumber_book=1317 I，A∩B=，有:

conf(A pagenumber_ebook=100,pagenumber_book=1317 B)+conf(AB)=1

2018年3月31日调查结果表明，小麦播后苗前施用47%异隆·丙·氯吡可湿性粉剂 3 000 g/hm2，小麦3叶1心时47%异隆·丙·氯吡可湿性粉剂3 000 g/hm2与3%甲基二磺隆油悬浮剂450 mL/hm2混用对晚播稻茬麦田中的菵草、日本看麦娘、看麦娘、牛繁缕、荠菜、野老鹳草的株数防效和鲜质量防效均高于90%，可有效防除晚播稻茬麦田杂草危害(表3、表4)。

(2)sup(A)和sup(B)都偏大时令sup(A)+sup(B)＞1，此时，情形3和情形4的conf(A pagenumber_ebook=101,pagenumber_book=1318 B)左边界都为1+sup(B)/sup(A)－1/sup(A)→2－1/sup(A)，因为sup(A)＜1且sup(A)偏大，故1/sup(A)→1+，2 －1/sup(A)→1－，可见，conf(AB)偏高。对conf(AB)，当ε→0时都有conf(AB)∈［0，1］。

对四种正负关联规则的置信度取值范围的研究有助于更合理地确定有效关联规则的置信度阈值。为此，文献［8］给出了基于项集支持度的规则置信度取值范围界定规律。

喝了两杯茶，拉扯了一些家常话，紫云把话引入正题：“二位前辈，都有失去老伴的痛苦。人生苦短，不要过分悲哀，也该为自己考虑一下。你们是同学，了解心性，不如做一家人，早晚有个照应！”

定理3 四种正负关联规则置信度取值范围:

定理2表明，四种关联规则置信度之间存在互补关系。定理3表明，规则置信度取值范围的确定与规则的项集支持度紧密相关，且在不同项集支持度取值下规则的置信度取值范围存在差异。显然，单级置信度阈值难以有效反映四种规则置信度间的约束关系，也没有考虑四种规则置信度间的差异。而四级置信度阈值法又无法反映四种规则置信度间变化的有机联系。鉴于此，两级置信度阈值法更为合理。

2 结合项集相关性的两级置信度阈值设置法

3) if(KA，B≥k1){

2．1 正负关联规则置信度变化特点分析

令ε=，根据定理3公式特点，本文首先在下面4种情形对四种关联规则的置信度取值范围进行了变形处理，变形结果如表1所示。

情形1 sup(A)+sup(B)≤1且sup(B)≥sup(A)。

5) PAR=PAR∪(A pagenumber_ebook=102,pagenumber_book=1319 B);

情形3 sup(A)+sup(B)＞1且sup(B)≥sup(A)。

情形4 sup(A)+sup(B)＞1且sup(B)＜sup(A)。

情形1的变形推理过程如下:

因为sup(A)+sup(B)≤1

pagenumber_ebook=101,pagenumber_book=1318

由此可得表1中情形1所示结果。情形2、3、4的变形过程与情形1类似。

表2是由定理3得出的几种典型sup(A)和sup(B)取值下四种关联规则置信度的取值范围示例。

文献［8］在分析四种规则置信度的特点时仅考虑了sup(A)和sup(B)都大于0．9、sup(A)和 sup(B)都小于0．1等特殊情形。为了提高新两级置信度阈值法提取规则的有效性，本文以表1为基础，结合关联规则的项集相关性及表2中的实例，分析四种正负关联规则置信度变化的一般特点。

1)A和B正相关时规则A pagenumber_ebook=101,pagenumber_book=1318 B和AB有效。此时，规则的项集支持度sup(A)和sup(B)一般同大同小。为便于讨论，令项集支持度差距ε→0。分两种情况:

(1)sup(A)和sup(B)都偏小时令sup(A)+sup(B)≤1。对情形1，有conf(A pagenumber_ebook=101,pagenumber_book=1318 B)∈［0，1］，conf(AB)的左边界→1－sup(A)/(1－sup(A))=1－1/(1/sup(A)－1)，因sup(A)偏小，故conf(AB)左边界偏高;对情形2，conf(AB)右界→1，即conf(AB)∈［0，1］，而conf(AB)左边界→1－1/(1/sup(B)－1)，因sup(B)偏小，故conf(A pagenumber_ebook=101,pagenumber_book=1318 B)的左边界偏高。

conf(A pagenumber_ebook=100,pagenumber_book=1317 B)+conf(AB)=1

综上，项集A和B正相关时，若sup(A)和sup(B)都偏小，conf(A pagenumber_ebook=101,pagenumber_book=1318 B)可高可低，但conf(A B)偏高。如表2中1、2行的第5～6列所示;若sup(A)和sup(B)都偏大，conf(AB)偏高，conf(AB)可高可低。如表2中3、4行的第5～6列所示。

表1 不同sup(A)和sup(B)情形下的正负关联规则置信度的取值范围Tab．1 Confidence range of positive and negative association rules in different sup(A)and sup(B)situations

情形conf(A pagenumber_ebook=101,pagenumber_book=1318 B)conf(AB)conf(AB)conf(AB)情形1 ［0，1］ 1－ ε+sup(A)1－sup(A[)，1－ε1－sup(A)]［0，1］ ε1－sup(A[)，ε +sup(A)1－sup(A)]情形2 0，sup(B)sup(B)+[ ]ε[1－ 1［(1－ ε)/sup(B)］－1，1 1－ sup(B)sup(B)+][ ]ε，1 0， 1［(1 － ε)/sup(B)］－1[]情形3 1+sup(B)sup(A[)－ 1 sup(A)，1][ ]0，1 － ε 1－sup(A)[ ]0，1 － sup(B)sup(B)－ε[(1－sup(B))/ε+1，11]情形4 1+sup(B)sup(A[)－ 1 sup(A)，sup(B)sup(B)+ε]［0，1］ εsup(A[)，1－sup(A)+εsup(A)]［0，1］

表2 不同sup(A)和sup(B)取值下的正负关联规则的置信度取值范围示例Tab．2 Examples of confidence range of positive and negative association rules in different values of sup(A)and sup(B)

行sup(A)sup(B)εconf(A pagenumber_ebook=101,pagenumber_book=1318 B)conf(AB)conf(AB)conf(AB)1 0．1 0．1 0．0 ［0，1］［0．89，1］［0，1］［0，0．11］2 0．1 0．2 0．1 ［0，1］［0．78，0．89］［0，1］［0．11，0．22］3 0．8 0．7 0．1 ［0．62，0．87］［0，1］［0．13，0．38］［0，1］4 0．9 0．9 0．0 ［0．89，1］［0，1］［0，0．11］［0，1］5 0．2 0．5 0．3 ［0，1］［0．38，0．63］［0，1］［0．37，0．62］6 0．7 0．2 0．5 ［0，0．28］［0．33，1］［0．72，1］［0，0．67］7 0．2 0．8 0．6 ［0，1］［0，0．25］［0，1］［0．75，1］8 0．9 0．1 0．8 ［0，0．11］［0，1］［0．89，1］［0，1］9 0．1 0．9 0．8 ［0，1］［0，0．11］［0，1］［0．89，1］

2)A和B负相关时规则A pagenumber_ebook=101,pagenumber_book=1318 B和AB有效。为便于讨论，将其置信度取值范围中除0和1以外的边界看成关于ε的函数。由表1可知，它们是关于ε的增函数。

当sup(A)+sup(B)→1且ε→0时，有:

max{0，(sup(A)+sup(B) －1)/sup(A)}→0

min{1，sup(B)/sup(A)} →1

max{0，(sup(B)－sup(A))/(1－sup(A))}→0

正负关联规则挖掘一般分为两个步骤:1)找出事务数据库D中满足用户要求的所有项集;2)由项集产生强关联规则。PNMC-TWO用于正负关联规则提取阶段，下面给出该阶段的伪代码。

由定理3，此时conf(A pagenumber_ebook=102,pagenumber_book=1319 B)和conf(AB)都在0～1，并无显著特点(即可高可低)。除此之外，有:

(1)对于情形1。

11) NAR=NAR∪(A pagenumber_ebook=102,pagenumber_book=1319 B);

初到广州的五建迅速瞄准和服务华南市场。但与此同时，五建面临着依赖传统工程建设项目、效益增长方式单一、市场投资领域变化、生产方式转变、资源环境和生产要素制约以及劳动力成本上升等问题。眼见传统工程建设的路越来越窄，未来如何生存已经成为不得不思考的问题。“我们清醒地认识到，只有加快企业转型升级步伐，开发新的效益增长领域，企业才能焕发出新的生机和活力。”五建党委书记蒋德军说。

对conf(A pagenumber_ebook=102,pagenumber_book=1319 B)，sup(A)+sup(B)→1时，右边界(ε+sup(A))/(1－sup(A))→1，左边界ε/(1－sup(A))随ε变化而变化。ε越小，左边界越小，conf(AB)可高可低;ε越大，左边界越大，conf(A B)越高。若sup(A)+sup(B)→1不成立时，conf(AB)左右边界随ε同增、减。

相比于赛道，我更喜欢驾驶阿斯顿·马丁Vantage行驶于乡间的公路。舒适的真皮座椅、令人难以自拔的车门开启质感以及同事们爱不释手的车厢内细节，这辆阿斯顿·马丁代表着充满了英伦气息的少数派风格。令人陶醉的听觉盛宴和散发着独到驾驶乐趣的后轮则使Vantage更加的与众不同。

(2)对于情形2。

ε越小时，conf(A pagenumber_ebook=102,pagenumber_book=1319 B)左边界1－sup(B)/(sup(B)+ε)和conf(A B)右边界1/((1－ε)/sup(B)－1)越小，此时，conf(AB)可能高可能低，conf(AB)越低。

同理ε越大时，conf(A pagenumber_ebook=102,pagenumber_book=1319 B)左边界和conf(AB)右边界越大，因此conf(AB)越高，conf(AB)可高可低。

(3)对于情形3。

conf(A pagenumber_ebook=102,pagenumber_book=1319 B)类似情形2的conf(AB)，conf(AB)类似情形2的conf(AB)。

(4)对于情形4。

conf(A pagenumber_ebook=102,pagenumber_book=1319 B)类似情形1的conf(AB)。

综上，项集A和B负相关时，若sup(A)+sup(B)→1且ε偏小，两种规则的置信度可高可低。此外，有:ε越大(小)，A pagenumber_ebook=102,pagenumber_book=1319 B和AB中一类规则的置信度越高(低)，而另一类规则的置信度可高可低。如表2中最后两列所示。

2．2 两级置信度阈值设置法PNMC-TWO

由上一节的讨论可知:A和B正相关且支持度偏小时conf(A pagenumber_ebook=102,pagenumber_book=1319 B)可高可低，但conf(AB)偏高;A和B正相关且支持度偏大时conf(AB)偏高，conf(AB)可高可低。考虑到AB类规则与可信度低的AB类规则实用性不强［10］，此时可通过设置高置信度阈值(mc-max)来降低AB类规则数量并保证A pagenumber_ebook=102,pagenumber_book=1319 B类规则的高可信度。

A和B负相关时，若sup(A)+sup(B)→1且项集支持度差距ε偏小，conf(A pagenumber_ebook=102,pagenumber_book=1319 B)和conf(AB)都是可高可低，此时，为了有效防止有趣关联规则的遗漏，算法可设置低置信度阈值(mc-min)加以保证。

此外，ε越小，A pagenumber_ebook=102,pagenumber_book=1319 B和AB中的一类规则的置信度越低，而另一类规则的置信度可高可低。为了不遗漏置信度偏低的有趣负关联规则，此时可采用低置信度阈值来提取这两类规则。同理，随ε增大，其中一类规则的置信度越高，而另一类规则的置信度可高可低。为了限制置信度偏高的负关联规则数量和保证另一类规则的高可信度，在ε较大时采用高置信度阈值更合理和有效。设ε大小阈值为εmin。

在推动税收法治现代化的过程中，税制改革不能仅着眼于增加财政收入的功能需求或单方面地强调效率价值。一个良好的税制体系应兼顾公平价值，蕴含对于分配正义、权利保障以及政府治理能力建设的整体关切。[25]消费税的税制改革是新一轮财税体制改革的“重头戏”，唯将其内嵌于财政税收法律体系的基本价值和基本原则中，在充分论证税制改革的经济规律与法理逻辑的基础上进行制度设计，方能更好地实现消费税的改革目标与制度功能，体现本轮财税体制改革的合法性与合理性、公平性与效率性、形式法治与实质法治之统一。

综上，正负关联规则两级置信度阈值法(PNMC-TWO)的设置思想如下:设mc-min为低置信度阈值，mc-max为高置信度阈值。从事务数据库D中筛选出满足项集相关性强度阈值的项集A和B。若A和B正相关，A pagenumber_ebook=102,pagenumber_book=1319 B和AB类规则的置信度阈值用mc-max。若A和B负相关，AB和AB类规则的置信度阈值设置分两种情形:ε＜εmin时用mc-min，ε≥εmin时用 mc-max。

min{sup(B)/(1－sup(A))，1}→1

财务总监杨艳萍通报了2018年三季度整体经营情况，并对相关重要数据进行财务分析。各业务经营单位负责人围绕各自工作进行了交流发言。今年以来，面对严峻的经济环境、多变的市场形势，公司经营团队逆势攻坚、积极谋变，前三季度主要经济指标保持总体平稳。

算法用PNMC-TWO提取有趣正负关联规则。

输入需要进行相关性分析的项集集合U，正相关强度阈值k1和负相关强度阈值k2，两级置信度阈值mc-min和mc-max，项集支持度差距阈值εmin，支持度阈值ms。

输出正负关联规则集合PAR和NAR。

1) PAR= pagenumber_ebook=102,pagenumber_book=1319 ;NAR=;//PAR为正关联集，NAR为负关联集合

2) while(each itemset A，B∈U and A∩B= pagenumber_ebook=102,pagenumber_book=1319 {

Cankaya等[19]研究发现角膜光密度与角膜厚度、角膜曲率、等效球镜之间并没有明显相关性存在，这与本研究是相符的。Otri等[2]同样发现角膜光密度与角膜厚度无明显相关性。本研究还发现角膜光密度与眼压之间也无相关性。

文献［7，10］的双置信度阈值法假设四种关联规则同时挖掘，且它们的置信度阈值满足定理2的约束;但是，根据定理1，在考虑项集A和B相关性后，A pagenumber_ebook=100,pagenumber_book=1317 B和AB、AB和AB不会同时出现。实际上，在相关度－支持度－置信度框架下，文献［7，10］提出的双阈值法是无法有效限制低可信度规则数量的，并且还容易遗漏一些有趣规则，因此，本文结合规则的项集相关性，以定理3为基础，分析了正负关联规则置信度的变化特点，有如下结论:关联规则的项集正相关时，规则置信度高低变化趋势与规则的项集支持度大小变化趋势有关;关联规则的项集负相关时，规则的置信度高低变化趋势与规则的项集支持度间的差距大小有关。据此，本文提出了一种新的两级置信度阈值设置方法。新方法包括正负关联规则的两个置信度阈值，其设置还涉及相关强度判定阈值k1和k2以及规则的项集支持度差距阈值εmin。

4) if(sup(A pagenumber_ebook=102,pagenumber_book=1319 B)≥ms and conf(A B)≥mc-max)

情形2 sup(A)+sup(B)≤1且sup(B)＜sup(A)。

6)if(sup(A pagenumber_ebook=102,pagenumber_book=1319 B)≥ms and conf(AB)≥mc-max)

7)NAR=NAR∪(A pagenumber_ebook=102,pagenumber_book=1319 B);}//if k1

8) if(KA，B≤k2){

9) if(

10) if(sup(A pagenumber_ebook=102,pagenumber_book=1319 B)≥ms and conf(A B)≥mc-max)

不良的饮食习惯：偏食或挑食会导致人体的维生素和矿物质缺乏，会导致口腔黏膜的破溃，形成慢性溃疡，时间长了，就可能会发生癌变。而均衡的饮食有利于摄入足够的维生素和矿物质，降低口腔癌和口咽癌的风险。

conf(A pagenumber_ebook=102,pagenumber_book=1319 B)∈［0，1］，其取值可能高可能低。

12)if(sup(A pagenumber_ebook=102,pagenumber_book=1319 B)≥ms and conf(AB)≥mc-max)

13)NAR=NAR∪(A pagenumber_ebook=102,pagenumber_book=1319 B);}//if εmin

14) else{

15) if(sup(A pagenumber_ebook=102,pagenumber_book=1319 B)≥ms and conf(A B)≥mc-min)

16) NAR=NAR∪(A pagenumber_ebook=102,pagenumber_book=1319 B);

17)if(sup(A pagenumber_ebook=102,pagenumber_book=1319 B)≥ms and conf(AB)≥mc-min)

18)NAR=NAR∪(A pagenumber_ebook=102,pagenumber_book=1319 B);}//else

19) } //if k2

20)} //while

21)return PAR and NAR

设U中项集个数为n，则算法在最坏情况下的时间复杂度为O(n2)。使用PNMC-TWO时的算法步骤3)～18)时间复杂度为O(1)，说明新方法的使用不会额外增加用户所选择的正负关联规则挖掘算法的时间开销。PNMC-TWO置信度阈值设置法融合了4种正负关联规则的置信度取值变化规律，使得两级置信度阈值的设定变得更为客观和科学，更具一般性和适应性，有利于有效规则的提取。

3 实验分析

为检验PNMC-TWO的有效性，本文以文献［15］的正负关联规则挖掘算法为统一模型，采用文献［11］提出的最优相关度量KA，B，与文献［7，10］的正负关联规则双置信度阈值法进行了实验对比。

实验环境:Intel Core i5-5200U 2．20 GHz处理器，4 GB内存，Windows 10操作系统，Matlab R2015b编程。事务数据库:1)小型事务数据集［6］。它包含10个事务和6个项目;2)某超市某月的销售数据集。它包含747个事务，196个项，其中非频繁项集居多;3)UCI上的chess数据集。它包含3196个事务和75个项目，具有高度正关联的特点。

实验参数:表 3 中 k1=0．6，k2=0．3，ms=0．3，εmin=0．5。表4中k1=0．6，k2=0．3，ms=0．15，εmin=0．5。表5中k1=0．7，k2=0．3，ms=0．94，εmin=0．5。

在不同的置信度阈值下，两类双置信度阈值法在小数据集上的挖掘结果如表3所示，在超市数据集上的挖掘结果如表4所示，在chess数据集上的挖掘结果如表5所示。其中，P-mc表示文献［7，10］方法中A pagenumber_ebook=103,pagenumber_book=1320 B和AB型规则的置信度阈值，N-mc表示文献［7，10］方法中AB和AB型规则的置信度阈值，且P-mc+N-mc=1;FAR表示两种方法提取出的正关联规则数量，NAR表示负关联规则数量。

表3 小数据集上挖掘规则数量及运行时间Tab．3 Number of mined rules and running time on small data set

pagenumber_ebook=103,pagenumber_book=1320

/s文献［7，10］方法方法 P-mc/mc-max N-mc/mc-min FAR NAR T 0．90 0．10 4 136 0．06 0．85 0．15 5 136 0．05 0．80 0．20 6 136 0．05 PNMC-TWO 0．90 0．60 4 82 0．07 0．85 0．55 5 99 0．05 0．80 0．50 6 101 0．06

表4 超市数据集挖掘规则数量及运行时间Tab．4 Number of mined rule and running time on supermarket data set

方法 P-mc/mc-max N-mc/mc-min FAR NAR T/103s文献［7，10］方法0．90 0．10 111 12388 0．97 0．85 0．15 170 11670 0．98 0．80 0．20 269 9782 0．96 PNMC-TWO 0．90 0．50 111 7286 1．02 0．85 0．55 170 6666 1．02 0．80 0．60 269 6339 0．99

表5 chess数据集挖掘规则数量及运行时间Tab．5 Number of mined rule and running time on chess data set

方法 P-mc/mc-max N-mc/mc-min FAR NAR T/103s文献［7，10］方法0．90 0．10 1076 171 0．57 0．85 0．15 1076 211 0．56 0．80 0．20 1076 241 0．57 NMC-TWO 0．90 0．60 1076 171 0．56 0．85 0．55 1076 211 0．57 0．80 0．50 1076 241 0．54 P

从表3～5可知:当文献［7，10］双阈值法中 P-mc与PNMC-TWO中mc-max保持一致时，提取的正关联规则数量相同，这表明PNMC-TWO与文献［7，10］双阈值法在控制 A pagenumber_ebook=103,pagenumber_book=1320 B型规则方面具有同样好的效果。但是，从表3和表4可观察到，PNMC-TWO提取出的负关联规则与原双阈值法提取出的负关联规则相比，数量明显减少。原因在于，文献［7，10］的双阈值法中，如果P-mc很高，N-mc就会很低，它使得大量无趣的低可信度A pagenumber_ebook=103,pagenumber_book=1320 B和AB型规则被提取出。而PNMC-TWO由于考虑了规则置信度的内在变化规律，使之对负关联规则数量调控非常显著。它既不会遗漏掉有趣的关联规则，也不会产生过多低可信度的关联规则。可见，在控制规则数量和保证规则有趣方面，PNMC-TWO比文献［7，10］双阈值法更有效。

对chess数据集挖掘时所需进行相关性分析的项集对共有7574对，其中99%的相关度大于0．9，其余的不小于0．3，说明chess数据集中有趣项集间是高度正相关的，所以在P-mc和mc-max对应相同时，两个方法提取出的负关联规则(全为A pagenumber_ebook=103,pagenumber_book=1320 B)数量相同，如表5所示。

可见，对具有不同大小和特点的数据集，PNMC-TWO都表现出了良好的有效性和适应性。另外，从运行时间来看，PNMC-TWO几乎不额外增加提取规则的时间开销。

4 结语

在相关度－支持度－置信度框架下，现有的正负关联规则置信度阈值设置方法挖掘出的规则质量不高。结合规则的项集相关性分析，在分析正负关联规则置信度变化特点基础上提出了一种更加科学、合理的PNMC-TWO。理论分析和实验计算表明，新方法能更加有效地控制挖掘出来的规则数量，同时还可以确保挖掘出来的规则是真正有趣的关联规则。

参考文献(References)

［1］ AGRAWAL R，SRIKAN R．Fast algorithms for mining association rules in large databases［C］//Proceedings of the 20th International Conference on Very Large Data Bases．San Francisco， CA:Morgan Kaufmann Publishers Inc．， 1994:487 －499．

［2］ HAN J， PEI J， YIN Y．Mining frequent patterns without candidate generation［J］．ACM SIGMOD Record， 1999， 29(2):1 －12．

［3］ ZAKI M J．Scalable algorithms for association mining［J］．IEEE Transactions on Knowledge＆ Data Engineering， 2000，12(3):372－390．

［4］ BRIN S，MOTWANI R，SILVERSTEIN C．Beyond market baskets:generalizing association rules to correlations［J］．ACM SIGMOD Record，1997，26(2):265－276．

［5］冯山，游晋峰．含负项的关联规则挖掘研究综述［J］．四川师范大学学报(自然科学版)，2011，34(5):746－750．(FENG S，YOU J F．The mining association rules with negative review ［J］．Journal of Sichuan Normal University(Natural Science Edition)，2011，34(5):746－750．)

［6］ WU X，ZHANG C，ZHANG S．Efficient mining of both positive and negative association rules［J］．ACM Transactions on Information Systems，2004， 22(3):381 －405．

［7］ PAUL A．Positive and negative association rule mining using correlation threshold and dual confidence approach［C］//Proceedings of the 2015 International Conference on Computational Intelligence in Data Mining．Berlin:Springer， 2016:249 －260．

［8］ DONG X，SUN F，HAN X，et al．Study of positive and negative association rules based on multi-confidence and chi-squared test［C］//ADMA 2006:International Conference on Advanced Data Mining and Applications， LNCS 4093．Berlin:Springer， 2006:100 －109．

［9］ HAMALAINEN W．Kingfisher:an efficient algorithm for searching for both positive and negative dependency rules with statistical significance measures［J］．Knowledge ＆ Information Systems， 2012， 32(2):383－414．

［10］ PIAO X，WANG Z，LIU G．Research on mining positive and negative association rules based on dual confidence［C］//Proceedings of the 2010 International Conference on Internet Computing for Science ＆ Engineering．Washington， DC:IEEE Computer Society，2010:102－105．

［11］ WU T，CHEN Y，HAN J．Re-examination of interestingness measures in pattern mining:a unified framework［J］．Data Mining ＆Knowledge Discovery，2010，21(3):371－397．

［12］董祥军，王淑静，宋瀚涛．基于两级支持度的正、负关联规则挖掘［J］．计算机工程， 2005，31(10):16 －18．(DONG X J，WANG S J， SONG H T．Mining positive and negative association rules based on two level support ［J］．Computer Engineering，2005，31(10):16－18．)

［13］ DONG X，NIU Z，SHI X，et al．Mining both positive and negative association rules from frequent and infrequent itemsets［C］//Proceedings of the 3rd International Conference on Advanced Data Mining and Applications．Berlin:Springer-Verlag，2007:122 －133．

［14］ SWESI I M A O，BAKAR A A，KADIR A S A．Mining positive and negative association rules from interestingfrequentand infrequent itemsets［C］// Proceedings ofthe 2012 9th InternationalConference on Fuzzy Systems and Knowledge Discovery．Piscataway，NJ:IEEE，2012:650 －655．

［15］ ANTONIE M L．Mining positive and negative association rules:an approach for confined rules［C］//Proceedings of the 8th European Conference on Principles and Practice of Knowledge Discovery in Databases．New York:Springer-Verlag，2004:27 －38．

作者

陈柳，冯山

出处

《计算机应用》 2018年第05期

上一篇：基于多角度多区域特征融合的苹果分类方法

下一篇：基于节点中心性和社区相似性的快速标签传播算法

《计算机应用》2018年第05期文献

基于可穿戴传感器的人体活动识别研究综述作者：郑增威，杜俊杰，霍梅梅，吴剑钟

基于Dyna框架的非参数化近似策略迭代增强学习作者：季挺，张华

基于局部远亲差分增强的扰动粒子群优化算法作者：王永贵，胡彩云，李鑫

融合Shapley值和粒子群优化算法的混合特征选择算法作者：邓秀勤，李文洲，武继刚，刘太亨

基于熵权Vague 集的多目标决策方法作者：赵庆庆，黄天民

求解动态优化问题的多种群竞争差分进化算法作者：袁亦川，杨洲，罗廷兴，秦进

考虑用户特征的主题情感联合模型作者：许银洁，孙春华，刘业政

基于聚类分析的微博广告发布者识别作者：赵星宇，赵志宏，王业沛，陈松宇

结合注意力机制的长文本分类方法作者：卢玲，杨武，王远伦，雷子鉴，李莹

基于改进的多层BLSTM 的中文分词和标点预测作者：李雅昆，潘晴，．W

面向汉维机器翻译的调序表重构模型作者：潘一荣，李晓，杨雅婷，米成刚，董瑞

改进的显式形状回归人脸特征点定位算法作者：贾项南，于凤芹，陈莹

基于多标签判别字典学习的图像自动标注作者：杨晓玲，李志清，刘雨桐

复杂环境中基于视觉词袋模型的车辆再识别算法作者：王茜，陈一民，丁友东

基于迁移学习的水产动物图像识别方法作者：王柯力，袁红春

基于多角度多区域特征融合的苹果分类方法作者：刘媛媛，王晖，郭躬德，江楠峰

正负关联规则两级置信度阈值设置方法作者：陈柳，冯山

基于节点中心性和社区相似性的快速标签传播算法作者：顾军华，霍士杰，王守彬，田喆

基于文献信息网络语义特征的相似性搜索作者：邱庆羽，李婧，全兵，童超，张利君，张海仙

基于距离类别的多源兴趣点融合算法作者：徐爽，张谦，李琰，刘嘉勇

基于HBase和Hive 的航班延误平台的存储方法作者：吴仁彪，刘超，屈景怡

基于异方差高斯过程的时间序列数据离群点检测作者：严宏，杨波，杨红雨

密码云中基于熵权评价的虚拟密码机调度方法作者：王泽武，孙磊，郭松辉，孙瑞辰

基于改进单类支持向量机的工业控制网络入侵检测方法作者：刘万军，秦济韬，曲海成

面向分布式网络结构的APT攻击双重博弈模型作者：张为，苏旸，陈文武

抗合谋攻击能力可调的有状态组密钥更新协议作者：敖丽，刘璟，姚绍文，武楠

多属性环境下基于容错学习的全同态加密方案作者：白平，张薇

基于集成学习的口令强度评估模型作者：宋创创，方勇，黄诚，刘亮

海量小文件系统的可移植操作系统接口兼容技术作者：陈博，何连跃，严巍巍，徐照淼，徐俊

高维胖树系统中确定性路由容错策略实现作者：徐佳庆，万文，蔡东京，唐付桥，何杰，张磊

杂志信息网