快捷分类

基于兴趣度度量的正负关联规则挖掘方法研究

更新时间：2009-03-28

0 引言

关联规则挖掘算法最初是为解决购物篮问题而提出的频繁项集挖掘算法，主要是从大规模数据集中挖掘出符合频度规则的有趣的关联规则，挖掘出的关联规则主要用于提高商品销售量。大多数关联规则通过支持度-置信度框架得出，在此框架下得出的关联规则只是满足一定的支持度和置信度，并没有考虑规则前件和后件的相关性，并不是有趣的，其结果会对生产销售决策起误导作用[1]。例如在满足了支持度与置信度阈值的要求下，产生了“买X=>买Y”这条关联规则，意味着顾客在买X的情况下同时也会购买Y，但实际上在X的条件下购买Y的概率远远小于单独购买Y的概率，这条关联规则并不是有趣的。为此通过兴趣度度量这一概念对生成的关联规则进行筛选，去除无趣的规则，保留有趣的规则。

在挖掘关联规则的过程中，人们通常只关注于正强关联规则，像“买了X同样也会买Y”这样的正关联规则，往往忽略了负关联规则同样对决策支持具有重大的作用[2]。在大规模数据集中，两个项目之间不仅有正相关的关系，也有负相关的关系。像经典的“啤酒-尿布”关联规则就是正相关关系，顾客在买啤酒的同时会把尿布带回去，这一规则也充分揭露了一个现象，爱喝啤酒的丈夫在下班后既要买啤酒也要给自己的孩子买尿布，而“可乐-茶”这一关联规则就是负相关关系，它们之间的功能相互替代，是二选一的关系。

针对以上提出的两个问题，为了过滤掉在支持度-置信度框架下产生的关联规则中的无趣规则，引入了兴趣度度量，对关联规则进行筛选，避免无趣规则对决策执行的误导作用。为了掌握更全面的决策信息，在进行正关联规则挖掘的同时，也进行负关联规则的挖掘。

从数据挖掘的角度，负关联规则和正关联规则具有同样重要的价值，在相关决策制定过程中，发挥了自己独特的作用，越来越受到大家的重视[3]。为此，在现有几种兴趣度度量的基础上，提出了一种新的兴趣度度量，来解决数据挖掘中正负关联规则的问题。

1 Apriori算法简介

1.1 Apriori算法

Apriori算法是通过扫描事物集合采用逐层搜索策略来产生频繁K项集的。首先，扫描数据库，找出频繁1项集；基于频繁1项集，进行自连接、剪枝后，再次扫描数据库，产生频繁2项集；依次类推找出频繁K项集，直至找到最大的频繁项集[4]。

在关联规则挖掘频繁项集的过程中，主要分为两个步骤：连接步和剪枝步[5]。连接步：为了找到候选K项集CK，需要频繁K-1项集LK-1，进行自连接，即LK-1*LK-1，当两项集的前K-2项相同时，它们是可连接的。剪枝步：候选项集CK是频繁项集LK的超集，如果CK中某个候选项集有一个K-1子集不属于LK-1，则这个候选项集可以被修剪掉，不再考虑[6]。

在关联规则的挖掘过程中，主要做两方面的工作：挖掘频繁项集和生成关联规则[7]。频繁项集是满足一定出现频率的项集，频率的确定由支持度决定，在挖掘的过程中设定最小支持度，大于最小支持度的项集就是频繁的。关联规则是形如X=>Y这样的蕴涵式，在发现频繁项集之后，通过置信度公式来判断关联规则是否符合要求。

1.2 相关概念

1.2.1 支持度

支持度是指项目元素占事务集合的百分比，用以判断项集是否是频繁项集的指标[8]。

P(X=>Y)=P(X∪Y)

(1)

1.2.2 置信度

(3)Interest( width=17,height=5,dpi=110 X=>Y)>0。

置信度是指在事物集合中，在包含项目X的条件下包含项目Y的概率，用以判断X=>Y关联规则是否为强关联规则[9]。

1.2.3 关联规则

(2)

Conf(X=>Y)=P(Y|X)

余弦度量是在提升度度量的基础上改进而来的，两者虽然整体上看起来类似，但是余弦度量比起提升度度量多了零不变性质，使其在进行兴趣度度量时不受事物总数的影响。其兴趣度度量的取值和提升度度量的取值范围一样，正负关联规则的判断条件也一样。

2 包含正负关联规则的兴趣度度量

在支持度-置信度框架下，无法过滤无趣的不相关的关联规则，为此引入兴趣度度量对之前的评价标准进行扩充，使得在支持度-置信度-兴趣度框架下，挖掘出有趣的正负关联规则。

2.1 提升度度量

文献[10]介绍了提升度度量，公式如下：

Interest(X⟹Y)=P(X∪Y)/P(X)P(Y)

(3)

提升度度量是一种基于概率的简单的兴趣度度量，用来评估前件X的出现对于后件Y的出现是否具有提升作用，反应了前件X和后件Y之间的相关关系。当Interest(X=>Y)>1时，表明前件X和后件Y是正相关的，X的出现会提高Y出现的概率。当0≤Interest(X=>Y)<1时，表明前件X和后件Y是负相关的，X的出现会降低Y出现的概率。当Interest(X=>Y)=1时，表明前件X和后件Y是相互独立的，两者的出现并不相互影响。

2.2 基于差异思想兴趣度度量

文献[11]介绍了差异思想兴趣度度量，公式表示如下：

高质量的课堂教学不仅需要科学的设计，同时也需要做好现场生成工作。在信息化背景下很容易出现许多突发现象，这样也就需要教师具备一定的实践能力。为了保证课堂教学的有效开展，教师要运用好信息化设备，提升自身的操作能力，为学生的学习与发展提供服务。教师通过把握好使用信息化设备的方式与时机，以此来保证语文教学的有效开展，结合这一阶段学生的特点，最大限度地提升自身的管理能力，确保课堂教学的顺利进行，提高学生的学习质量。

Interest(X⟹Y)

(4)

在此兴趣度度量中，Conf(X=>Y)是指在前件X的发生下发生Y的概率；P(Y)是指项目Y在整体事物集中出现的概率；两者做差值运算，其正负结果显示了前件X对后件Y的相关性。分母取值置信度和支持度的最大值来做一个标准化因子，使得整个兴趣度度量取值范围控制在[-1，1]之间。当Conf(X=>Y)-P(Y)>0时，0X=>Y)≤1，说明X和Y是正相关的，X的出现对Y的出现有提升作用；当Conf(X=>Y)-P(Y)<0时，-1≤Interest(X=>Y)<0，说明X和Y是负相关，X的出现可能会引起Y不出现；当Conf(X=>Y)-P(Y)=0时，Interest(X=>Y)=0，说明X和Y是相互独立的，X的出现不会影响Y的出现。

近年来，韩国文化的流行与发展推动了韩国经济以及社会的发展。韩语凭借着特有的说话语调以及发音方式使人们对韩国越来越感兴趣，越来越多的人想走进韩国并了解韩国的历史文化与语言文化。加之韩国在其旅游方面的宣传力度不断加大，致使很多人想观赏韩国一些城市的美丽风景，并且品尝韩国美食，促进了当地的经济发展与社会发展，最终带动了韩国文化的传播。

2.3 余弦度量

文献[12]介绍了余弦度量，公式如下：

经过长期的实践研究最终确定了一、二轮复习课的模式，教师要熟练掌握和运用，以适当调整变通，突出时间分配的变式。

(5)

关联规则是形如X=>Y的蕴涵式，X和Y都是属于项目集合里的项集，X是规则前件，Y是规则后件，X=>Y代表了前后件之间的相关性。大于最小支持度和最小可信度的关联规则即为强关联规则[5]。

3 新的含正负关联规则的兴趣度度量

如果关联规则X=>Y为有趣关联规则，说明关联规则X=>Y不仅满足相应的支持度和置信度，而且在X出现的条件下Y出现的概率要比Y单独出现的概率大，即购买X产品会促进Y产品的销量[13]，根据相关性度量的相关性质，不难得出Conf(X=>Y)>Conf( width=17,height=5,dpi=110 X=>Y)[14]。Conf(X=>Y)>Conf(X=>Y)说明在购买X的条件下购买Y的概率大于不购买X的条件下购买Y的概率，基于此提出一种新的含正负关联规则的兴趣度度量，公式如下：

断面3由柔直线路和一回交流线路构成，在该方式下柔直系统输送功率超过402 MW时，断面3出现交直流线路环流现象，因此需控制柔直有功功率在[0,402 MW]区间来避免交直流线路出现环流。

Interest(X⟹Y)

(6)

If(Interest(X=>Y)<0) //负相关

定理1：设D为事务数据集，I为属于事务集的项目集合，X,Y为属于I的项目，X∩Y=∅，P(X)为X的支持度。

P( width=17,height=5,dpi=110 X)=1-P(X)

先行者一号配备了1块7600mAh的电池和跑车仪表盘设计的触控屏幕，可视化展现5G网络信息及性能，让用户使用更加简便。同时，先行者一号还提供丰富接口，并支持20个设备同时无线接入，可满足各类业务场景的应用需求。

由以上定理可知，当Interest(X=>Y)>0时，蕴涵式X=>Y是正关联规则，项目X的出现对项目Y的出现有提升作用。当Interest(X=>Y)<0时，蕴涵式X=>Y是负关联规则，项目X的出现对项目Y的出现有抑制作用。其他负关联规则 width=17,height=5,dpi=110 X=>Y，X=>Y，X=>Y同理。当蕴涵式X=>Y(或者X=>Y)的值大于0时，X=>Y，X=>Y的值小于0，正反关联关系成对应状态，不会同时出现，产生矛盾状态。

P( width=17,height=5,dpi=110 X∪Y)=P(Y)-P(X∪Y)

“这样，妹子，自古英雄跨烈马，好马还须配好鞍。凭我们家这样好的条件，我儿子又这么有能耐，不能要这样穷茬闺女。”

P( width=17,height=5,dpi=110 X∪Y)=1-P(X)-P(Y)+P(X∪Y)

在此新兴趣度度量下，根据正负关联规则关系，可以得出以下定理。

定理2：若Interest(X=>Y)>0，则

(1)Interest( width=17,height=5,dpi=110 X=>Y)<0；

(2)Interest(X=> width=17,height=5,dpi=110 Y)<0；

夕阳的余晖渐渐散去，祷过山下师生四人升起了一堆篝火。奇巧生搭了一顶简易帐篷，轩辕明从口袋里掏出几个大果子递给大家：“吃吧，这是刚才在树上摘的，暂时果腹。”

证明:因为

Interest(X⟹Y)=-

Conf(X⟹Y)>Conf( width=17,height=5,dpi=110 X⟹Y)

得出:

Interest( width=17,height=5,dpi=110 X⟹Y)=

Interest(X⟹ width=17,height=5,dpi=110 Y)=

Interest( width=17,height=5,dpi=110 X⟹Y)=

P(X∪ width=17,height=5,dpi=110 Y)=P(X)-P(X∪Y)

4 算法设计

基于新的兴趣度度量和正负关联规则定理，根据Apriori算法挖掘过程，进行正负关联规则挖掘。在挖掘之前，根据要挖掘的数据集的实际特点，设定合适的支持度和置信度，在支持度-置信度-兴趣度框架下，能够最大限度地挖掘出具有实际价值的正负关联规则。

算法：挖掘正负关联规则(D，min_P，min_Conf，Interest(X=>Y))

输入：事务数据集D；最小支持度min_P；最小置信度min_Conf；兴趣度Interest(X=>Y)。

输出：正负关联规则集合PN_set。

Step1:C=min_P_Search(D)；//根据最小支持度阈值，挖掘频繁项集，放入集合C中

Step2:R=min_Conf_Search(C)；//根据最小置信度阈值，挖掘出符合最小置信度的强关联规则，放入集合R中

Step3:foreach(itemset m in R)//根据兴趣度度量公式定理，求出正负关联规则，放入集合PN_set

X=m.pre;//X为强关联规则的前件

施工单位的建造能力水平与造价成本相关，如果施工单位整体的业务能力水平高，则可以降低因缺陷返工等因素造成的额外费用。施工单位业务水平强，可以缩短施工周期，保证建筑产品质量，提升施工单位在建筑市场的形象。

第二，在制定会计准则时，考虑不到不同利益集团的需要，注重基本原则的指导，同时要相应增加实施的细则，不能只依靠会计人员的经验。

Y=m.post;//Y为强关联规则的后件

If(Interest(X=>Y)>0) //正相关

PN_set=PN_set∪{X=>Y}；

(2)深入推进节水型社会建设。全面落实全民节水行动计划、“双控行动”，从严控制产能过剩行业取用水；深入开展节水型单位和居民小区建设，继续开展水效领跑者引领行动，深入推进合同节水试点示范；加快节水产品推广普及，科学有序推进县域节水型社会达标建设。

If P( width=17,height=5,dpi=110 X=>Y)≥min_P && Conf(X=>Y)≥min_Conf

PN_set=PN_set∪{ width=17,height=5,dpi=110 X=>Y}；

自存在句这一概念引入以来，学术界对于它的定义和划分长久以来众说纷纭、莫衷一是，存在着不小的分歧。近年来，语言学界基本达成一定共识：从语义上来看，存在句的基本释义为“某物存在某地或某地存在某物”；而从句式层面来看，存在句的基本构式由三部分组成：“A段（场所名词）+B段（存在动词）+C段（存在主体）或者A段（存在主体）+B段（存在动词）+C段（场所名词）”。在该文中，笔者在梳理《红楼梦》（前三十回）一书出现的存在句的基础上，主要从语义和句式两个层面出发挖掘和探讨存在句背后存在的认知解释。

在进行兴趣度计算时，因为要进行正负关联规则挖掘，涉及到对正负关联规则支持度和置信度的计算。而Apriori算法在进行频繁项集挖掘时，得到的是正项集的支持度和置信度的关系，在进行负项集支持度和置信度计算时，利用相关定理通过正项集的支持度和置信度的值，求出负项集的支持度和置信度。根据概率之间的相关性质和文献[15]的介绍得到定理1。

If P( width=17,height=5,dpi=110 X=>Y)≥min_P && Conf(X=>Y)≥

min_Conf

PN_set=PN_set∪{ width=17,height=5,dpi=110 X=>Y}；

If P(X=> width=17,height=5,dpi=110 Y)≥min_P && Conf(X=>Y)≥min_Conf

PN_set=PN_set∪{X=> width=17,height=5,dpi=110 Y}；

水利智慧网是将物联网应用于水利信息采集和监控的现代化智能网络技术。物联网是按照约定协议，通过传感器将各种网络连接起来进行信息的交换和通信，实现智能化和识别、定位和监控管理的网络技术。将物联网应用于水利建设，可极大地提高水利信息化和水利自动化。

Step4：return PN_set。

该算法首先通过最小支持度阈值挖掘出频繁项集，通过最小置信度阈值挖掘出强关联规则，然后运用提出的兴趣度度量公式挖掘出符合要求的正负关联规则。当关联规则X=>Y的兴趣度大于0时，说明规则前件和后件正相关，将正关联规则并入PN_set集合中，然后判断 width=17,height=5,dpi=110 X=>Y的支持度和置信度的取值是否满足最小支持度和最小置信度阈值，若满足，将关联规则X=>Y并入PN_set集合。关联规则X=>Y的兴趣度小于0时，判断X=>Y和X=>Y的支持度和置信度的取值是否满足最小支持度和最小置信度阈值，若满足，将关联规则并入PN_set集合。

舒晋瑜的采访可谓是漫谈，那么她和这些作家评论家们的探讨自然是非常广泛的，有文本的探讨，还有各种文化艺术的交流，关于文人文化多种轶事均有涉猎，诸如作协与文联的定位问题、作家的挂职问题、关于作家体验生活等等，这些内容也是非常精彩，在此不需要笔者再行赘述，但必须强调的是，真是做到了别开生面。

5 算法验证及分析

在提出的挖掘正负关联规则算法的基础上，为验证算法的效率和性能，对算法进行验证和分析。验证在Windows 10操作系统下，使用SQL Server 2008数据库，Visual Studio 2017软件，C#语言实现。数据集由3 000个用户的超市购物数据组成，算法在不同的支持度和置信度阈值的设定下进行验证，结果如表1所示。

表1 算法验证结果

支持度阈值/%置信度/%强关联规则数运行时间/s兴趣度正关联规则数正负关联规则数20301750.62156348401650.631412762530420.78367840420.793678303060.626124060.6266

验证结果显示，在支持度-置信度框架下，所筛选出来的关联规则要多于在支持度-置信度-兴趣度框架下的正关联规则。因为在支持度-置信度阈值的筛选下，没有考虑到前后件的相关性，得出的正关联规则并不都是有趣的。在支持度-置信度-兴趣度框架下引入了兴趣度,充分解决了关联规则评价标准的问题，把不满足相关性无趣的关联规则过滤掉了。

除此之外，通过兴趣度度量得到的正负关联规则的数量远远大于在支持度-置信度框架下得到的关联规则的数量。在支持度-置信度框架下得到的关联规则只是满足了最小支持度和置信度的强关联规则。该算法不仅挖掘出了有趣的正关联规则，还把有趣的带实际意义的负关联规则也进行了挖掘，所以在整体上比经典算法要有效得多。

6 结束语

为了能够挖掘出有效的正负关联规则，在现有几种兴趣度度量基础上提出了一种新的兴趣度度量。在真实的超市购物数据集上进行了算法验证，根据相关正负兴趣度度量的性质对强关联规则进行筛选，挖掘出了有趣的正负关联规则，证明了该算法的有效性。

参考文献：

[1] SHEU J J,CHU K T.Mining association rules between posi-

tive word-of-mouth on social network sites and consumer acceptance:a study for derivative product of animations,comics,and games[J].Telematics & Informatics,2017,34(4):22-33.

[2] TALAEIKHOEI M,NEMATIREZVANI H,FISCHERAUER S F,et al.Emotion regulation strategies mediate the associations of positive and negative affect to upper extremity physical function[J].Comprehensive Psychiatry,2017,75:85-93.

[3] KEARNS S M,CREAVEN A M.Individual differences in positive and negative emotion regulation:which strategies explain variability in loneliness?[J]. Personality and Mental Health,2016,11(1):64-74.

[4] REIMERT I,FONG S,RODENBURG T B,et al.Emotional states and emotional contagion in pigs after exposure to a positive and negative treatment[J].Applied Animal Behaviour Science,2017,193:37-42.

[5] WANG Bowei,CHEN Dan,SHI Benyun,et al.Comprehensive association rules mining of health examination data with an extended FP-Growth method[J].Mobile Networks & Applications,2017,22(2):267-274.

[6] 吕杰林,陈是维.基于相关性度量的关联规则挖掘[J].浙江大学学报：理学版,2012,39(3):284-288.

[7] WU Xindong,ZHANG Chengqi,ZHANG Shichao.Efficient mining of both positive and negative association rules[J].ACM Transactions on Information Systems,2004,22(3):381-405.

[8] 余玲.客观兴趣度模型及其在关联分类中的应用研究[D].成都:西南交通大学,2010.

[9] 邢玲,宋章浩,马强.基于混合行为兴趣度的用户兴趣模型[J].计算机应用研究,2016,33(3):661-664.

[10] WROBEL M,SUNDARARAGHAVAN H G.Positive and negative cues for modulating neurite dynamics and receptor expression[J].Biomedical Materials,2017,12(2):025016.

[11] 王微微,夏秀峰,李晓明.一种基于用户行为的兴趣度模型[J].计算机工程与应用,2012,48(8):148-151.

[12] 梁宝华,蔡敏.正负关联规则挖掘方法的改进及其应用[J].计算机工程,2010,36(16):44-46.

[13] 张玉芳,熊忠阳,彭燕,等.基于兴趣度含正负项目的关联规则挖掘方法[J].电子科技大学学报,2010,39(3):407-411.

[14] 李伟东,倪志伟,刘晓.基于兴趣度的关联规则挖掘[J].计算机技术与发展,2007,17(6):80-82.

[15] 陈宁军,高志年.一种改进的正负关联规则挖掘算法[J].计算机科学,2011,38(12):191-193.

作者

马彦勤，武彤，邓烜堃

出处

《计算机技术与发展》 2018年第05期

上一篇：基于模型的IMA时间资源配置验证方法研究

下一篇：一种基于深度残差网络的车型识别方法

《计算机技术与发展》2018年第05期文献

大数据下数据预处理方法研究作者：孔钦，叶长青，孙赟

基于最小二乘法和BP神经网络的TOA定位算法作者：浦佳祺，陈德旺

基于权重自适应形态学的周期性噪声去除方法作者：戴丹，张兴刚

一种基于标签的程序控制流错误检测方法作者：姚伟，顾晶晶

基于文本属性的微博用户相似度研究作者：李梦洁，邵曦

融合信息熵和加权相似度的协同过滤算法研究作者：李玲，王移芝

基于弱特征重识别的多目标长效摘要作者：石亚玲，刘正熙，熊运余，李征

基于模型的IMA时间资源配置验证方法研究作者：王明明，胡军，张维珺，李宛倩

基于兴趣度度量的正负关联规则挖掘方法研究作者：马彦勤，武彤，邓烜堃

一种基于深度残差网络的车型识别方法作者：刘敦强，沈峘，夏瀚笙，王莹，贾燕晨

基于分项可变权函数的各项异性去噪模型作者：王锐锐，蔡光程

基于AHP的大数据可用性及挖掘方案模型研究作者：杨明，李铁冰，姜茸，高提雷，王佳

基于全卷积网络的目标检测算法作者：施泽浩，赵启军

基于博弈论的ALM协议改进算法作者：蔡媛媛，曹自平，张金娅

改进的新型蝙蝠算法作者：吕赵明，张颖江

基于节点兴趣非结构化P2P网络搜索机制研究作者：庄伟

自适应学习系统中“KCP学习者模型”研究作者：李春生，张永东，刘澎，张可佳

基于主成分特征的快速分形图像压缩算法作者：张爱华，唐婷婷，汪玮玮，张璟

基于量子粒子群优化的DV-Hop算法研究作者：张中芳，张玲华

无线感知网络中动作识别的滤波算法作者：吴春香，张建明

基于社交网络分析的诈骗团体挖掘方法研究作者：贾志娟，赵靓，周娜

一种高性能计算网络下的TCP查找哈希算法作者：张立武，冯宝，周建华，李洋，茅天奇

一种基于预判筛选的频繁项集挖掘算法作者：李德辰，吕一帆，赵学健

基于人工鱼群算法的改进质心定位算法作者：汪晨，张玲华

基于智慧实验室的安全事故分析与预测作者：楚丹琪，李睿智，高洪皓，张康

基于龙芯处理器的嵌入式可信解决方案作者：易平，庄毅

基于位置推荐中的隐私保护方法研究作者：张海涛，汪佩佩

面向OSPF脆弱点的分节点污染方法研究作者：周季璇，顾巧云，凤丹

基于计算机软硬件的视频监控系统设计与研究作者：黄岩

多服务器环境下动态身份认证密钥协商方案作者：曹阳

杂志信息网