快捷分类

基于OLAP和聚类分析的关联规则挖掘方法

更新时间：2009-03-28

0 引言

数据挖掘就是利用各种数理模型从数据库中的海量数据中抽取隐藏的某种规律的一系列过程[1]。关联规则挖掘能将数据库中项与项之间的潜在关系挖掘出来，比如利用超市的购物单发现了购买啤酒和尿布的强规则[2]。最经典的关联规则算法是 Apriori 算法[3]，但它需要反复扫描事务数据库并产生大量候选集，占用内存大、运行效率低。以下出现的是一些当前关联规则挖掘急需解决的挑战性问题[4]：

(1) 面临当前海量信息，提高关联规则挖掘算法的效率常常又会导致降低了挖掘结果的可行性、新奇性。

(2) 在挖掘的过程中，大型数据库挖掘出的规则集过大，导致用户难以理解、难以选择。

(3) 关联规则算法中融合其他算法、解决单纯的关联规则算法无法解决的应用问题。好多挖掘方法看似和关联规则算法没有交集，若有机地融入算法中可扬长避短。

通过数据仓库的OLAP操作：切片、切块、旋转、上卷和下钻，用户既可以快速地察觉到宏观变化，又可以从细节上观察变化的详细因素。聚类是用户用以观察某一类具有共同特性的数据集的利器。现有的关联规则挖掘若结合OLAP和聚类分析，用户可以有预见性地选取有分析意愿的数据集，挖掘结果更符合用户的分析意愿，使得挖掘出的关联规则的数量大为减少、而用户的满意度却大大增加。本文的研究工作将部分地解决上述关联规则挖掘研究中的挑战问题，从而为数据仓库和数据挖掘技术的应用普及做出贡献。

1 相关知识

1.1 OLAP分析

用户的决策分析在关系数据库上需要经过大量的计算，显然简单的查询的结果难以满足这种决策需求。因此，E.F.Codd于1993年提出了OLAP的概念(即多维数据库和多维分析)。

定义1[5] OLAP(联机分析处理)是联机查询和分析某个具体的主题的数据，从多维度、不同综合层次上直观地将数据状态展示给使用者。

OLAP分析主要利用以下5种操作[5]：切片、切块、聚合、钻取、旋转。将多维数据集上某个维度固定为一个维度成员区间(例如取“2000年至2014年”)，就得到一个切块。维度的层次结构代表了数据的综合程度，如地区维度可能由地区、省、市、区构成。综合程度越低则细节级别越高，粒度越小，数据量越大。在某个维度上将综合层次低的数据汇总到高层次数据是上卷操作。反之为下卷操作。这两种浏览数据的方式，提供给用户宏观和微观角度观察数据。旋转既可交换行和列上的维度，也可以交换维度的不同层次，从而得到用户习惯的数据展示形式。

一台口径900 mm传统立式轴流泵大约需要15～20天安装时间，复杂的轴线对中程序非常耗工、耗时；上表中4座泵站仅在钢制井筒安装的基础上增加了水泵安装、检修的自动耦合导轨，使水泵现场安装调试快捷、方便，定位准确，无需对中，每台机组安装时间均为2～3天，安装费用大约1.5万元。

OLAP是数据分析过程中的重要工具，它使数据分析能够在数据立方体上以用户习惯的视角迅速、一致、交互地浏览数据，以便用户能深入理解数据。

1.2 聚类分析

与传统统计分析及OLAP不同，数据挖掘采用计算机自动处理算法在数据集上进行自动挖掘，从而找到潜在、有用的知识。将个体之间的相似性作为“距离”的测度，使得相互间距离比较小归为一类而不同类的个体间距离比较大，俗称聚类。聚类反映的不仅有不同事物之间的差异性而且还有同类事物的共同性。数据集通过聚类被划分为一系列子类，从而细化了人们的客观认识，可以区分概念和偏差。当前常见的聚类算法有：划分法 [6]、层次法[7]、密度法[8]、网格法 [9]和模型法[10]。

K-means算法[11]是比较典型的划分法聚类算法，每个数据点唯一地分配给一个且仅一个聚类，而且需要预先指定需要划分聚类的个数，但方法简单、较容易实现。本文将采用它作为聚类方法。K-means算法流程如下所示：

1) 选定数据空间中K个对象作为初始聚类中心，每个对象代表一个类别的中心。

2) 对于样品中的数据对象，则根据它们与这些聚类中心的欧氏距离，按距离最近的准则分别将它们分配给与其最相似的聚类中心所代表的类。

3) 计算每个类别中所有对象的均值作为该类别的新聚类中心，计算所有样本到其所在类别聚类中心的距离平方和，即J(C)值。

4) 聚类中心和J(C)值是否发生改变，若是则转2),否则聚类结束。

基于多维数据集上直接的OLAP操作能辅助用户对现有的多维数据集上的数据分布现状的理解，形成用户很清晰的数据分析对象的关注。

1.3 关联规则

应对场景：I）为其编辑过程提供各种信息支持；II）为其展示个人资料、成果，使其获得影响力；III）为其了解所处领域内世界正在发生什么；IV）为其挖掘研究趋势、寻找合作者，洞悉所处学科正在发生的变化；V）推出新的期刊评价指标，指引发稿人员选择合适的期刊发表论文。

关联分析的目的就是为了发现数据间发生一定关联关系的规律，通常采用以下形式：(X⟹Y，支持度=s，置信度=c)。这里X称为规则的前件，Y称为规则的后件，支持度s是包含X的项在全体项集中出现的频率，置信度c是X和Y同时出现的项在出现有X的项集中所占比例。

Apriori算法是最知名的关联规则发现方法。大于最小支持度的项集称为频繁项集，利用了频繁集，Apriori算法分为两个步骤[5]：

第一步：利用大于最小支持度和“Apriori性质”找到所有频繁项集；第二步：利用大于最小置信度将第一步找到的频繁项集转换为关联规则。

通过以上例证，我们看出《红楼梦》中的儿化现象是非常显著的，儿化词不仅多，而且形式多样，富于变换。各方面的原因促成了其儿化特征，我们可以从词类角度详细分析《红楼梦》中儿化词的形式及作用，也可以剖析儿化改变词性的现象,进行词义例证，这些对于我们学习理解《红楼梦》的语言特征还是有一定必要性的。

算法使用迭代方法，利用“频繁项集的所有非空子集都必须是频繁的” Apriori性质由“K-项集”产生“K+1-项集”，如此下去，直到找不到后继的频繁项集为止。

那些充满传奇色彩的故事已被相关媒体书写完备，相关细节不再陈述。总而言之，王勇的创业史代表了中国第一代企业家崛起的路径与模式：筚路蓝缕，起步于乡野之间，腾挪扩张，发展于产业之间，在小县城里成为行业中呼风唤雨的全国大佬。

2 综合OLAP和聚类分析的关联规则挖掘

即在关联规则挖掘算法Apriori的第一步的频繁项集的计算当中，该规则有效地包含在频繁项集中。但在第二步生成关联规则的时候，需要计算置信度：

首先我们以一个简单的例子来说明数据集的选择对关联规则挖掘出的结果的影响。

例1 假定在一个零售商品的数据库中包含两个商场A和B的购物交易数据，如表1所示。

表1 交易集的分析

买咖啡不买咖啡合计A商场买牛奶20525不买牛奶57075B商场买牛奶52025不买牛奶57075合计35165200

下面分别讨论表1中事务集对关联规则的支持度和置信度的影响。

1) 由表1可以了解到，如果设定minsupp=0.2，minconf=0.6，整个200个交易记录构成的事务集按照现有挖掘算法就可以得到如下关联规则：

无论在原核细胞还是哺乳动物细胞，双链断裂均会触发DNA的自我修复功能，通过两种方式被细胞内天然修复系统修复：一是通过非同源末端连接[16]，这种修复方式往往会导致随机的小片段缺失或插入，不能够精确控制，通常用于移码突变或基因敲除，导致靶向基因产生一个无功能的、缩短的蛋白；另一种是同源重组介导的修复[17]，可精确编辑基因，用于基因敲入或基因敲除。

另外，在数据仓库环境中集成了与分析主题相关的多数据源的、海量历史数据。这是一般为数据挖掘准备的数据库所不具备的有利条件，而且在数据仓库环境中已经通过抽取、转换和装载(ETL)过程使这些数据达成了一致性和完备性，形成了很高质量的数据。这些有利条件可以进一步地将用于关联规则挖掘的事务集中的数据进行聚类划分，从而可以挖掘出针对某些具有相似特征的聚类有效的关联规则。而这些关联规则常常对于整个事务集由于支持度和置信度不够而被挖掘算法过滤掉。这就导致了用户难以得到比较精确的数据分析结果，而这种有针对性的分析结果在当前提出的主动推荐技术和精准网络广告上尤其重要。

故在整个交易记录上上述规则因为不满足设定的最小支持度在计算频繁项集的时候就被舍弃。

2) 当我们设定的最小支持度的阈值可以满足，即可以有效通过频繁项集的计算，该规则仍然可能因为最小置信度不满足导致被舍弃。

例如，在这个例子中如果我们设定minsupp=0.12，minconf=0.60，整个200个交易记录构成的事务集按照现有挖掘算法就可以得到如下关联规则：

买牛奶→买咖啡 s=25/200=0.125>minsupp

即在关联规则挖掘算法Apriori的第一步的频繁项集的计算当中，该规则有效地包含在频繁项集中。但在第二步生成关联规则的时候，需要计算置信度：

买牛奶→买咖啡 c=25/50=0.50<minconf

故在整个交易记录上上述规则因为不满足设定的最小置信度在算法第2步生成关联规则的时候被舍弃。

3) 如果构造了一个商品销售分析的数据仓库的多维数据模型。比如在事实表中含度量值：销售金额和销售数量，将商场作为一个分析的维度，则在OLAP操作中既可通过上卷(也称之为上钻)看到整个交易集(包含了A、B两个商场)中买咖啡的总数量为35，买牛奶的数量为50。同时也能通过下钻操作分别看到A商场和B商场买咖啡的数量分别为25和10；买牛奶的数量分别为25和25。很明显买咖啡的数量集中在A商场。如果管理者有意识地需要得到咖啡销售情况的关联规则分析，只需要关注A商场的销售情况。即如果现在只是在表2所示事务集上做关联规则分析，按照现有挖掘算法就可以得到如下关联规则:

买牛奶→买咖啡 s=20/100=0.2=minsupp

c=20/25=0.8>minconf

表2 A商场交易集的分析

买咖啡不买咖啡合计A商场买牛奶20525不买牛奶57075合计2575100

即设定minsupp=0.2，minconf=0.6，根据关联规则挖掘算法能在面向商场A的数据分析上得到有效的关联规则买牛奶→买咖啡。也就是这条关联规则针对商场A有效，但对于整个交易记录反而不成立。因为买咖啡的交易主要集中在商场A完成。

观察组治疗后，血流变学指标和血小板参数变化各项指标明显优于治疗前，治疗前后对比差异具有统计学意义（P＜0.05），见表3。

由此可见在数据仓库的多维数据集上的OLAP分析，我们能清晰地看出待挖掘的事务集中的项集在不同维度层次结构上的分布的不同，而这种数据分布的倾向性极大地影响到关联规则挖掘算法执行时生成频繁项集的支持度的计算和生成关联规则过程中置信度的计算，并导致最终能否生成用户关注的关联规则集合。

2.2 聚类分析对关联规则挖掘的影响

程瀚从“一把手”沦为“一霸手”，肆意妄为，大搞违法乱纪的人身依附圈，严重破坏了合肥公安的政治生态。一些不愿与其建立人身依附关系的干部被排挤打压；一些原本正直的干部为保住职位也不得不曲意逢迎、巴结讨好甚至送礼行贿；而一些投其所好的下属则进入程瀚的小圈子，成为“家臣、家丁”。程瀚落马后，200多名干部被约谈，交警支队支队长宋某某、公共交通分局（便衣侦查支队、视频侦查支队）政委杨某某等一批干部悉数落马。

但上述数据理解方法仍然具有一定的局限性，从而妨碍了用户需要的关联规则的挖掘。这个问题类似如挖掘这样的关联规则：在上海浦东临港地区农工商超市现有不同类别人群的购物行为分析，或者是类似于用户张三的人群的购物行为分析。很显然，在数据仓库中没有直接的这样的购物行为的事务集，因为这是关注于用户的分析，而用户是不确定的、动态的，不像2.1节中有明显的维度成员：商场类别A和B。如果不能构建满足用户意图的事务集，而是在现有的数据仓库抽取到的整个事务集上做关联规则数据挖掘，会很明显出现和在2.1节中分析的结果一样的问题：针对特定数据分析对象的规则会因为支持度和置信度不够而不能有效地生成；而在一个大范围内产生的规则因为适用面太大而没有针对性，也就是用户真正想关注的关联规则不能有效地生成。

下面讲述如何实现本文中涉及到的基于个人信息的用户聚类分析，从而引证实现数据服务对象聚类的可行性方法。因为对用户的聚类需要用户注册的个人信息，而现在大的商场或商务网站都实行了会员制，所以用户的个人信息数据可以很方便得到。同时还有网上购物评价和相关论坛发帖，都能形成个人的信息，用于建立基于用户个性特征和购物兴趣的数据来源，从而利用现有的划分方法生成基于相似性度量的聚类。本文采用最常用的K-means方法得到聚类划分，而对于购物用户的聚类分析采用文献[12]的技术方案，只要布置好数据利用SQL SERVER2008 R2中analysis service部件自带的聚类算法，选择聚类模型为K-means即可。

该行为中国工商银行安徽省分行，在安徽省内，其综合实力排名靠前，所以此结果证明了该模糊综合评判模型的有效性和可行性。

表3 交易集的分析

买面包不买面包合计类似张三用户买牛奶20525不买牛奶57075不类似张三用户买牛奶52025不买牛奶57075合计35165200

下面分别讨论表3中事务集对关联规则的支持度和置信度的影响。

1) 由表3可以了解到如果设定minsupp=0.2，minconf=0.6，整个200个交易记录构成的事务集按照现有挖掘算法就可以得到如下关联规则：

买牛奶→买面包 s=25/200=0.125<minsupp

故在整个交易记录上上述规则因为不满足设定的最小支持度在计算频繁项集的时候就被舍弃。

2) 当我们设定的最小支持度的阈值可以满足，即可以有效通过频繁项集的计算，该规则仍然可能因为最小置信度不满足导致被舍弃。

例如，在这个例子中如果我们设定minsupp=0.12，minconf=0.60，整个200个交易记录构成的事务集按照现有挖掘算法就可以得到如下关联规则：

买牛奶→买面包 s=25/200=0.125>minsupp

天脊集团立足供给侧结构性改革，按照现代农业的需求，先后开发并向市场投放了肥效好、受欢迎、需求旺的硝酸铵钙、硝酸钾、土壤调理剂以及大量元素水溶肥、中量元素水溶肥、液体肥等一批新型肥料，延伸加固了天脊产品链条。

2.1 OLAP分析对关联规则挖掘的影响

买牛奶→买面包 c=25/50=0.50<minconf

故在整个交易记录上上述规则因为不满足设定的最小置信度在算法第2步生成关联规则的时候被舍弃。

即设定minsupp=0.2，minconf=0.6，根据关联规则挖掘算法能在面向类似张三用户的数据分析上得到有效的关联规则买牛奶→买面包。也就是这条关联规则针对类似张三用户有效，但对于整个交易记录反而不成立。因为买面包的交易主要由类似张三用户完成。由此可见为了完成用户需要得到的具有某一类特征的数据分析对象的关联规则，需要完成具有相似特性的数据分析对象的聚类，从而才能得到有针对性的关联规则；否则，在整个事务集上的关联规则分析，得不到用户心中想得到的有针对性的分析。

蒙牛对雅士利的收购，采用大量现金+一小部分股权的混合证券支付方式，此次并购采用这样的支付方式，为蒙牛带来很大的节税效果，这样的组合方式是节税最好的方式。现金支付可以促进企业的并购快速进行，并且股权结构也不会受到冲击，但是全部用现金支付会使得企业承担巨大的资金周转隐患，加上一部分的股票支付方式还会使得蒙牛产生节税效果。并且在我国税法的规定中，雅士利的原来持股股东在出售原来股票获得蒙牛的股权之后，不用缴纳个人所得税，不视为出售旧股购买新股的情况。当他们出售蒙牛的股票时才需要缴税，可以达到延迟缴税的效果。

3) 如果构造了一个商品销售分析的数据仓库的多维数据模型，比如在事实表中含度量值：销售数量，将用户作为一个分析的维度。为了挖掘这样的关联规则：类似于用户张三的人群的购物行为分析，需要事先完成用户的聚类分析。我们将具体实现用户聚类的方法留在后面详细阐述，先假定已经完成了商品销售分析中客户聚类。通过查询张三所属的用户聚类，将交易集中的用户分为“类似张三用户”，即张三所在的客户聚类，而其他客户聚类则划分为“不类似张三用户”。整个交易集(包含了类似张三用户、不类似张三用户)中买咖啡的总数量为35，买面包的数量为50，同时也能看到类似张三用户和不类似张三用户买面包的数量分别为25和10，买牛奶的数量均为25。很明显，买面包的数量集中在类似张三用户。如果管理者有意识地需要得到面包销售情况的关联规则分析，只需要关注类似张三用户的销售情况。即如果现在只是在表4所示事务集上做关联规则分析，按照现有挖掘算法就可以得到如下关联规则：

买牛奶→买面包 s=20/100=0.2=minsupp

c=20/25=0.8>minconf

表4 A商场交易集的分析

买面包不买面包合计类似张三用户买牛奶20525不买牛奶57075合计2575100

成品过筛率也可称为一次过筛率。由图6可以看出，试验工艺②的钼粉一次过筛率整体低于试验工艺①。试验工艺②工艺温度高，但粒度小，K相对低，同时一次过筛率也低。试验工艺②所出钼粉中小颗粒更多，团聚颗粒也较严重,(如图4观察更直观)，导致钼粉筛分难度增大，表现为一次过筛率低。

2.3 综合OLAP和聚类分析的关联规则挖掘算法

由于数据仓库环境下，用户可以通过数据仓库系统特有的OLAP操作和MDX语言进行多维数据分析。特别是上卷/下钻功能可以在不同综合细节和不同维度层次结构上看到度量值的不同变化，从而用户可以通过这些操作了解到感兴趣的数据分析对象的分布状况。而感兴趣的数据分析对象集中分布的数据集通过本文的分析极大地影响到关联规则挖掘的结果。

买牛奶→买咖啡 s=25/200=0.125<minsupp

定义2[5] 数据库中不可分割的最小单位信息，称为项目，用符号i表示。项的集合称为项集。设集合I={i1,i2,…,ik}，项目的个数为K，则I 称为K-项集。例如，集合{啤酒，尿布，牛奶}是一个3-项集。

本文在此仍然以一个如表3所示的简单的例子来分析在应用关联规则挖掘时出现的上述问题，并默认本例中用户已经聚类为两类。

定义3[5] 若X，Y为项目集，且X∩Y=∅，蕴涵式X⟹Y称为关联规则，X和Y分别称之为X⟹Y的前提和结论。

规则X⟹Y的支持度s是含有X的记录在全体记录中所占的比率，置信度c是同时含有X和Y的记录数与含有X的记录数的比率。显然，支持度s表示规则的频度，置信度c表示规则的强度，s和c均大于给定阈值的称为强规则，数据挖掘的主要兴趣是强规则的发现。s的最小阈值记为minsupp，c的最小阈值记为minconf。

定义4 将事务集中用户感兴趣的项(item)的集合称为用户兴趣项集，并记为Interest-itemset，其中的项称为用户兴趣项。

初始突出物间距为0.1mm，随着突出物间距的增加，突出物受到的阻力大小也逐渐增加并趋于恒定。根据不同气压下数据可发现，对于2mm的球状突出物，间距为10mm时，阻力达到了最大。另外，突出物间距对阻力大小的影响也会随着主喷嘴入口气压的增加而愈加明显。

用户兴趣项一般为挖掘出的规则的后件即为分析对象，即用户想知道提高感兴趣的商品的销售量的影响因素有哪些，而这些挖掘出的关联规则的前提就是能提高作为规则后件的商品销售量的影响因子。用户兴趣项也可以不是挖掘出的关联规则的后件，即是聚类因子，是用户感兴趣的需要聚类的维度或维成员。

提出用户兴趣项的概念是为了表达用户的分析意愿，从而对关联规则的挖掘结果施加用户挖掘目的性的影响。这样不仅可以缩小待挖掘数据集的大小，提高挖掘算法的执行效率，而且可以缩小挖掘出来的关联规则的个数达到用户可理解的程度、以便用户做出自己的选择。用户兴趣项是由用户指定的，表达了用户的分析需求。在2.1节中零售管理人员想分析客户买咖啡和哪些购买项有关联，则买咖啡是用户的兴趣项，在最后的挖掘结果中作为关联规则的后件出现。在2.2节中，用户的分析意愿并没有完全表达为关联规则的后件，而是关注不同用户群的购买面包和哪些购买项相关联。这样可以针对不同用户的购买行为制定促销策略引导消费，在这里用户的意愿中买面包是待挖掘的规则后件，数据仓库中的客户维度则是聚类因子。

定义5 将多维数据集中影响用户兴趣项的度量值变化比较显著的维度或维度层次上的成员值称为用户兴趣维度成员，并记为Interest- dim-Member，形成的集合记作Interest- dim-MemberSet。

在定义4的基础上，我们进一步提出了用户兴趣维度成员的概念，用户兴趣维度成员是通过OLAP的切片、切块、上卷/下卷等操作观察引起用户兴趣项的度量值变化比较显著的维度成员值或维度层次上的成员值。比如在2.1节中我们通过下钻操作发现用户兴趣项买咖啡的数量主要集中在商场维度的成员值“商场A”上；或在维度上进行维度成员的聚类划分，选取用户感兴趣的维度成员的聚类作为用户兴趣度成员。比如在2.2节中通过用户聚类后查询“类似张三用户”的用户聚类和“不类似张三用户”用户聚类，发现买面包的数量集中在“类似张三用户”群上，则“类似张三用户”的用户聚类中的客户维度成员作为用户的兴趣维度成员。

算法1 综合OLAP和聚类分析的关联规则挖掘 Apriori-OLC(based on OLAP and Clusters)

输入：聚类个数K，事务集I，minsupp，minconf，用户兴趣项集Interest-itemset

输出：关联规则集Associate-ruleset

Begin

(1) For each i(Interest-itemset do

{

首先，教师要保证学生在交流过程中，尽量以英语进行。不管在课堂上还是在课下休息的时候，这样不仅可以提高交流的趣味性，同时也可以营造良好的英语口语交流环境。

If i为用户感兴趣的关联规则的后件 then通过OLAP上卷/下钻操作或MDX语言发现与项i相关的Interest-dim-Member，并记入集合Interest- dim-MemberSet

else

i为用户感兴趣的聚类因子，则根据聚类个数K，调用K-平均值聚类算法划分聚类，并选择符合用户分析意愿的聚类中的维成员并入Interest- dim-MemberSet；

}；

For each j(Interest- dim-MemberSet do

{

Where子句中将维成员j作选择过滤条件；

}

在交易数据库中编写Select选择语句，并选择上述Where子句，查询出来的结果作为交易事务集I；

根据 minsupp，minconf，在事务集I上调用关联规则挖掘算法Apriori，生成的关联规则集记入 Associate-ruleset；

(2) Return(Associate-ruleset)；

END.

算法1即关联规则挖掘算法 Apriori-OLC的理论基础和对关联规则挖掘的有效性在2.1节和2.2节已有很详细的阐述。由此可见算法1可以提高关联规则挖掘结果对于用户的满意度，也改善了当前关联挖掘结果集太大而用户无所适从的应用瓶颈，使得所挖掘的结果具有针对性从而能为用户所想、亦为用户所用。

3 关联规则挖掘项目设计及实验验证分析

3.1 算法评价指标及分析

1) 基本评价指标包括：支持度和置信度。

这是事先人为设定的，只有满足大于最小支持度和最小置信度的规则才是最后挖掘出的强关联规则，见本文1.3节的描述。通过本文2.1节和2.2节的分析可知：与基于Apriori算法的关联规则挖掘算法比较，采用算法1通过支持用户预先设定的用户兴趣项并经过OLAP分析和聚类分析得到用户兴趣维度成员，从而精简了待挖掘的数据集，提高了用户感兴趣的规则的支持度和置信度，挖掘出用户真正感兴趣的规则。而这些规则在没有支持用户兴趣项挖掘的Apriori算法中常常因为没有大于最小支持度或最小置信度而被舍弃。

2) 定性评价指标包括：关联规则的简洁度。

关联规则的简洁度表现为规则个数和规则前件包含的项的数目。规则个数和前件中包含项的个数越少，规则越简洁，则用户越容易理解。由于算法1相对于Apriori算法支持了用户兴趣项挖掘，挖掘出的规则更简洁，不包含与用户兴趣无关的规则。

3.2 实际分析项目中的实验验证

利用SQL SERVER 2008 R2提供的SQL Server Management Studio(SSMS)部件建立实验环境下的数据仓库以及SQL Server Business Intelligence Development Studio(BIDS)部件建立一个分析项目包括多维数据模型和OLAP分析及关联规则挖掘。实验中使用的数据来源于海洋环境观测数据。运用Apriori关联规则挖掘，得到如图1所示结果。

图1 关联规则挖掘结果

挖掘出的关联规则过多，通过设置参数可以调整挖掘的个数，但用户仍然不清楚这些规则对整个数据集的针对性，难以达到辅助用户决策的目的。在多维数据集上，通过OLAP的下钻操作得到如图2所示的数据展示。

图2 OLAP的下钻操作结果

从图2的OLAP下钻操作结果，用户很容易看出影响要分析的对象“平均叶绿素浓度”的因子是月份和监测海域。因为月份在关联规则挖掘的数据集中，所以用户可以定义关于月份的一个划分，来看在这个时间段区间里影响平均叶绿素浓度的关联规则挖掘。比如可以限定监测海域=大连市近岸海域、月份=2011/1～2011/3来选择过滤数据集，则可以得到关联规则：当日期2011/1～2011/3⟹平均叶绿素浓度>1.22。由图1在SQL SERVER2008中展示的关联规则依赖关系图可知，在整个数据集上可挖掘到关联规则：当日期<2011/2/21⟹平均叶绿素浓度<0.62。

可见当用户没有通过OLAP分析对分析对象“平均叶绿素浓度”的值在不同影响因子上的分布情况有足够的理解时，根本得不到自己想要看到的关联规则。而整个数据集上挖掘的关联规则由于没有针对性，用户很难进行解读，也很难有助于用户的决策分析。

将监测海域作为聚类对象，与之相关的所在月份及监测的平均叶绿素浓度作为属性数据，采用欧式距离计算相似度并利用K-平均值进行聚类，可得到以下聚类：1) 2011/1-2011/3，大连市近岸海域；2) 2011/2-2011/4，宁波市近岸海域；3) 2011/1-2011/4，上海市近岸海域。

对属于不同聚类上的数据集分别进行关联规则挖掘，得到：

1) 2011/1-2011/3，大连市近岸海域；当日期2011/1-2011/3⟹平均叶绿素浓度>1.22。

2) 2011/2-2011/4，宁波市近岸海域；当日期2011/2-2011/4⟹平均叶绿素浓度>1.35。

3) 2011/1-2011/4，上海市近岸海域；当日期2011/1-2011/4⟹0.36<平均叶绿素浓度<1。

这些关联规则远比在整个数据集上可挖掘到关联规则(由图1可知)“当日期<2011/2/21时⟹平均叶绿素浓度<0.62”更有意义。因为这条规则针对以上任何一个聚类都没有实际指导意义，并且与规则1、规则2这两个聚类的实际相关的关联规则表达的意义刚好相反。

4 结语

为了克服当前关联规则挖掘方法得到的关联规则集过大，而且因为没有针对性导致用户无法理解的现象，本文提出了用户兴趣项和用户兴趣维度成员的概念，用来表达用户对事务集中数据分析对象的关注，从而将关联规则挖掘算法和用户的分析意愿结合在一起。并进一步给出了基于数据仓库环境下OLAP操作和聚类分析的关联规则挖掘的技巧。新的关联规则挖掘技巧较现有方法可以减少挖掘出的关联规则的数量并真正挖掘出用户所关注的数据分析对象的关联规则。

参考文献

[1] Agrawal R,Imieliński T,Swami A.Mining association rules between sets of items in large databases[C]//ACM SIGMOD International Conference on Management of Data.ACM,1993:207-216.

[2] Agrawal R,Srikant R.Fast Algorithm for Mining Association Rules[J].Computer Engineering & Applications,1994,15(6):619-624.

[3] Park J S,Chen M S,Yu P S.An effective hash-based algorithm for mining association rules[C]//SIGMOD’95 Proceedings of the 1995 ACM SIGMOD international conference on Management of data,1995:175-186.

[4] 何月顺.关联规则挖掘技术的研究及应用[D].南京航空航天大学,2010.

[5] 陈伟文.数据仓库与数据挖掘教程[M].北京:清华大学出版社,2011.

[6] 征原,谢云.基于划分的聚类个数与初始中心的确定方法[J].计算机技术与发展,2017,27(7):76-78.

[7] 余成进,赵姝,陈洁,等.复杂网络中的层次结构挖掘[J].南京大学学报(自然科学),2016,52(5):861-870.

[8] 周梦熊,叶岩明,任一支,等.基于密度聚类的协作学习群组构建方法[J].计算机工程与设计,2016,37(10):2710-2716.

[9] 缪裕青,高韩,刘同来,等.基于网格聚类的情感分析研究[J].中国科学技术大学学报,2016(10):874-882.

[10] 魏瑾瑞.一类基于模型的聚类方法[J].统计与信息论坛,2014,29(2):19-22.

[11] 李卫军.K-means聚类算法的研究综述[J].现代计算机(专业版),2014(8):31-32,36.

[12] 周粉妹.聚类算法在客户细分中的应用[J].烟台职业学院学报,2006,12(2):46-49.

作者

熊中敏，朱春卫，郭振辉，陈明

出处

《计算机应用与软件》 2018年第05期

上一篇：基于备份的RAID6在线重构框架

下一篇：多源通用数据标准管理平台的设计和应用

《计算机应用与软件》2018年第05期文献

会话密钥协商协议研究进展作者：胡志言，杜学绘，曹利峰

投稿须知 2009/03/28

九宫八数问题的四种深度优先编程方法作者：马旭

一种基于LRFU缓存替换策略的HDFS客户端本地缓存设计与实现作者：谢磊，吴建华，廖卓凡，罗可

不确定情况下集装箱多式联运多目标规划作者：甄远迪，杨斌

一种格上基于身份的高效验证方案作者：刘芳，赵一鸣

基于Elman反馈神经网络的导线串扰问题预测作者：王锦锦，聂鑫，王伟，石跃武，相辉，杨静，朱志臻

面向知乎的个性化推荐模型研究作者：王振海，李晓昀

基于多数据库的模糊元关联规则挖掘方法作者：刘小燕，王健

基于备份的RAID6在线重构框架作者：徐伟

基于OLAP和聚类分析的关联规则挖掘方法作者：熊中敏，朱春卫，郭振辉，陈明

多源通用数据标准管理平台的设计和应用作者：李雪凝，刘丰源，王凌，李明航

机电产品概念设计系统模型与几何模型转换方法研究作者：褚长勇，梁合宜

海量异构科技文献信息资源的非结构化存储研究作者：李鹏程，刘应波，王锋，文若瑾

自适应蝙蝠算法优化PF的风力机桨距系统故障诊断方法作者：曹洁，杜永红，王进花

基于误差和能量值的瞬态非平稳信号分析方法作者：陈金香，王义，孙彦广，张云贵

基于微服务架构的分布式测距系统的研究与设计作者：向彬彬，马明星，童茂林，彭瑾，苏文秀，高秀敏

专业领域智能问答系统设计与实现作者：陶永芹

一种基于Spark的分布式时态索引方法作者：郑晓东，王梅，陈德华，张碧莹

桥梁健康监测及养护平台设计与实现作者：武智霞，韩鹏，郑树泉，黄慧颖

“大智移云”技术综述及“智慧农机”应用实例作者：马建斌，滕桂法，张玉新，张璠

基于均衡-GARCH模型的SHIBOR短期利率仿真研究作者：黄日朋，王学金

基于优化分治表的远程数据审计方法研究作者：毛颉，王红玉，陈云

基于时间效应与隐语义模型的高校图书馆的个性化推荐研究作者：李薛剑，刘梦雅，海健强，吴雪扬，余雪莉

无人直升机着舰控制仿真系统设计与实现作者：明浩，祖家奎

随钻测井仪器测试软件设计与实现作者：李传伟，祝环芬，杨亮，陈国兴，孙博文，符涛

面向数据库云化的企业级高性能一体机性能评价模型作者：庄岭，赵新建，李维，王召，籍天明

基于预测模型的HDFS集群负载均衡优化与研究作者：于磊春，陈健美，刘响，胡杨

基于重叠社区发现的信任网络聚类模型作者：刘梦霞，卢志刚

基于TSV-SSM的元数据管理平台的设计和应用作者：刘丰源，王凌

杂志信息网