更全的杂志信息网

空间点模式聚类方法研究

更新时间:2009-03-28

随着数字时代的来临,数据库系统就变得尤为重要,数据中隐含着可观的信息量,但至目前用于找出隐含信息的手段却不是很多,从而导致数据爆炸。为了摆脱这个困境,科研人员研究出很多数据挖掘技术,关联模式挖掘、数据聚类、数据分类、数据立方体等概念相继被提出来[1-2]

空间聚类在空间数据挖掘技术中占据着很重要的地位,该技术在空间数据中把众多目标划分为很多个簇,而且每个簇之间具有很大的相似度,但空间簇间的目标差别又非常大。对海量空间数据进行深层次分析,发现空间离群点,这个空间离群点也称为空间异常[3-6],传统的聚类分析对数据的空间和非空间属性一般不进行区分。在空间聚类分析方面,传统的聚类分析手段虽然被应用很多,但其明显存在不足和局限[7],且缺乏一个完善的分类体系,因此,笔者对现有的空间聚类算法进行归纳分类,并对其各自的适用性进行分析和总结,对空间聚类分析技术的实际应用具有重要意义。

1 空间聚类分析方法概况

通常,一个完整的空间聚类分析应包括6个部分,分别是空间数据清理、空间聚类趋势分析、属性提取与相似度量、空间聚类算法选择和设计、空间聚类有效性评价、空间聚类结果解释和应用[8-10](见图 1)。

回到郑州天已经晚了,草草吃过饭,苏楠就上网搜文城发大水的信息。因为大水发生在1975年8月,媒体简称为“河南‘758’特大洪水”。维基百科的概述让苏楠震惊不已。

《明史》云:“虽居内阁,官必以尚书为尊。”[2](卷72,职官一)大学士入文渊阁参与机务是权力所在,加官尚书和师保则大大提高了地位。此二者是大学士成为宰相的要素,缺一不可。仁宗及以后,少数阁臣没有大学士头衔,大学士也用作致仕加官或者死后赠官[8]。考虑到多数情况,可以将仁宗以后的大学士视为阁臣的代名词。

  

图1 空间聚类分析

空间聚类算法主要根据两种原则进行分类,一种是根据空间实体的维度分为点、线、面、体;另一种是根据空间聚类的主要思想和工具,分为基于划分的算法、基于层次、基于密度、基于图论、基于模型、基于格网的算法和混合的聚类算法。每个算法中又有几个代表性的聚类算法见第50页表1。

笔者采用4组人工设计的具有预设划分结构的模拟数据集对5种方法的聚类质量从定性的角度进行比较分析。4种模拟数据集的空间分布及其预设划分结构见图2。

 

表1 现有数据聚类算法归纳

  

2 聚类算法实验分析与比较

公司2018-2020年股权激励计划解锁目标是9.59亿元、11.03亿元和12.68亿元,股权激励充分,目前公司PE14倍左右,接近历史最低值。

2.1 数据集描述

聚类算法之间没有严格的分类标准,特别对于新聚类算法,根本不可能把某些新算法具体分类到这几类聚类算法的任何一种。因为新算法的提出都是预先吸取一些旧算法的优势,然后再把这些优势融合在一起形成一个新的算法。还有一些新算法是依据实际存在的问题而提出来的,如带障碍的空间聚类算法。这类算法独辟蹊径,算法的过程很特殊,且具有实用价值,但这些新的算法都不能按上述方法进行分类[11-13]

  

图2 模拟数据的预设划分结构

大数据对政府传统管理理念形成挑战,全面树立大数据意识是政府提高大数据管理能力的关键,是推进政府治理创新的重要条件,当前政府管理部门大数据意识的缺乏,社会公众对大数据认识不足,影响了数据资源的创新应用。①要加强大数据宣传力度,在全社会传播普及大数据知识,自上而下全面提高大数据素养,将大数据理念渗透人们的思想之中,促使社会公众与政府共同树立大数据意识。②要提高大数据培训力度,重点要加强对政府工作人员培训,转变他们传统政府治理观念,培育大数据思维意识,树立科学的大数据治理理念,促进政府治理能力的提升。

实验数据为4组具有预设目的的模拟数据,几组模拟数据中有几个空间形状和大小差异很大、密度不同的空间簇;即使是同一簇密度也不同。密度相同但是不同的空间簇邻接,也有很多的孤立点,这些点即为噪声点。4组实验数据集中,每组数据集的特点不一样。模拟数据集S1存在球形簇、密度不均匀簇,形状相似的簇、密度比较大的簇。模拟数据集S2簇中包含簇、邻接簇、密度不均匀簇。模拟数据集S3簇之间存在多链、单链、颈的结构。模拟数据集S4中存在形状相似的簇、簇中包含簇、邻接簇等。

2.2 聚类质量评价方法

确定模拟数据集的划分结构后,实验采用一种外部评价方法来评价聚类有效性。如果两个对象属同一个簇,则称它们为一对,接着给出以下定义。

1)模拟实验1。图4为采用5种空间点模式聚类方法得到模拟数据集S1的聚类准确率和召回率的比较结果。从实验结果发现各算法的聚类准确率从高到低依次为:AUTOCLUST算法、Meanshift算法、CLUSTERDP算法、OPTICS算法、DBSCAN算法;召回率从高到低依次为:Meanshift算法、OPTICS算法、DBSCAN算法、CLUSTERDP算法、AUTOCLUST算法。基于划分的方法中,Meanshift算法聚类质量优于CLUSTERDP算法;基于密度的方法中,OPTICS算法聚类质量优于DBSCAN算法;而基于图论的方法AUTOCLUST具有较高聚类精度。

实验环境使用Windows7操作系统,实验程序及结果使用MATLAB编写完成。实验采用多个模拟数据集,分别采用Meanshift算法、基于密度的DBSCAN算法和OPTICS算法、基于图论的AUTOCLUST算法和CLUSTERDP算法对其进行测试,从定性角度对实际应用效果进行比较,分析不同方法下不同形态、不同密度空间簇的适用性,通过系统地比较分析验证各种聚类算法对不同数据产生的不同聚类质量,为5种方法的应用提供指导。

 

2.3 聚类算法比较与分析

2)模拟实验2。第51页图5为采用5种空间点模式聚类方法得到的模拟数据集S2的聚类准确率和召回率的比较结果。从实验结果发现各算法的聚类准确率从高到低依次为:AUTOCLUST算法、OPTICS算法、Meanshift算法、DBSCAN算法、CLUSTERDP算法;召回率从高到低依次为:Meanshift算法、DBSCAN算法、CLUSTERDP算法、OPTICS算法、AUTOCLUST算法。基于划分的方法中,CLUSTERDP算法和Meanshift算法的聚类质量相当;基于密度的方法中,OPTICS算法和DBSCAN算法的聚类质量基本相当;基于图论的方法中AUTOCLUST算法具有较高的聚类精度。

TP为正确肯定,两个对象在G中是一对,在C中也是一对;FP为错误肯定,两个对象在C中是一对,在G中不是一对;FN为错误否定,两个对象在G中是一对,在C中不是一对。其中G表示预先设定的划分结构,C表示聚类算法得到的结果。基于以上定义,笔者采用准确率和召回率作为聚类质量的评价指标,得出

  

图4 模拟数据集S1的聚类准确率和召回率比较结果

通过调节5种方法的输入参数,以尽可能得到与预设划分结构相似的聚类结果。

  

图5 模拟数据集S2的聚类准确率召回率比较结果

3)模拟实验3。图6为采用5种空间点模式聚类方法得到的模拟数据集S3的聚类准确率和召回率的比较结果。从实验结果发现各算法的聚类准确率从高到低依次为:CLUSTERDP算法、OPTICS算法、AUTOCLUST算法、Meanshift算法、DBSCAN算法;召回率从高到低依次为:DBSCAN算法、Meanshift算法、AUTOCLUST算法、OPTICS算法、CLUSTERDP算法。基于划分的方法中,Meanshift算法聚类质量和CLUSTERDP算法聚类质量相当;基于密度的方法中,OPTICS算法聚类质量优于DBSCAN算法聚类质量;在基于图论的方法中AUTOCLUST算法具有较高聚类精度。

  

图6 模拟数据集S3的聚类准确率召回率比较结果

4)模拟实验4。图7为采用5种空间点模式聚类方法得到的模拟数据集S4的聚类准确率和召回率的比较结果。从实验结果发现各算法的聚类准确率从高到低依次为:AUTOCLUST算法、CLUSTERDP算法、Meanshift算法、DBSCAN算法、OPTICS算法;召回率从高到低依次为:Meanshift算法、DBSCAN算法、OPTICS算法、AUTOCLUST算法、CLUSTERDP算法。基于划分的方法中,Meanshift算法的聚类质量优于CLUSTERDP算法;基于密度的方法中,OPTICS算法和DBSCAN算法的聚类质量基本相当;基于图论的方法中AUTOCLUST具有较高的聚类精度。

通过准确率和召回率对5种方法的聚类质量进行定量评价后发现:一是基于图论方法的聚类质量多优于基于密度、基于划分方法的聚类质量;二是基于密度的方法中,OPTICS算法的聚类质量优于DBSCAN算法的聚类质量;三是基于划分的方法中,Meanshift算法的聚类质量多优于CLUSTERDP算法的聚类质量。

涉众型经济犯罪中采用欺诈性的手段进行非法获取资金。犯罪分子一般会利用合法公司做幌子,通过给予投资者虚假承诺的方式获取高额的回报或者利息。比如湖南的一起非法吸存案件中,犯罪嫌疑人通过设置典当行、担保公司等通过向存款者支出利息以及现金回报的方式,获得非法存款1.5亿余元。而且为了获取群众的信任,犯罪分子还会故意编制光环,如伪造与国家领导人的合影、邀请名人做广告等方式壮大声势,吸引民众的投资。比如海南省锦绣大地生物工程有限公司合同诈骗案件中,嫌疑人是通过引领农民致富的方式,利用新闻媒体进行宣传,同时以知名主持人的形象进行推介,继而导致大批人受骗。

  

图7 模拟数据集S4的聚类准确率召回率比较结果

3 总结

聚类分析是数据挖掘中的一项重要任务,也是数据挖掘中比较前沿的信息提取技术。笔者通过对当前的空间点模式聚类算法进行分类和归纳,采用4组包含预设划分结构的模拟数据集,对5种方法发现空间簇的形状、密度变化的适应性、抗噪性、识别邻近空间簇的能力进行比较分析,并采用准确率和召回率定量度量不同方法的聚类质量,从而为5种方法的使用提供建议。

参考文献:

[1]FAYYAD U M,PIATETSKY-SHAPIRO G,SMYTH P.From data mining to knowledge discovery:an overview.in advances in knowledge discovery and data mining[M].Boston:AAAI/MIT Press,1996.

[2]HAN J W,KAMBER M.数据挖掘概念与技术[M].北京:机械工业出版社,2008.

[3]KOPERSKI K,HAN J W.Discovery of spatial association rules in geographic information databases[C].Proceedings of the 4th International Symposium on Advances in Spatial Databases.London:Springer-Verlag,1995:47-66.

[4]HAN J W,KOPERSKI K,STEFANOVIC N.GeoMiner:a system prototype for spatial data mining[C].Proceedings of the 1997 ACM SIGMOD international conference on Management of data.New York:ACM,1997:553-556.

[5]ESTER M,KRIEGEL H P,SANDER J.Spatial data mining:a database approach[C].Proceedings of the 5th International Symposium on Advances in Spatial Databases. London:Springer-Verlag,1997:47-66.

[6]ESTER M,FROMMELT A,KRIEGEL H P,et aL.Spatial data mining:database primitives,algorithms and efficient DBMS support[J].Data Mining and Knowledge Discovery,2000,4(2-3):193-216.

[7]SHEKHAR S,HUANG Y.Discovering spatial colocation patterns:a summary of results[C].Proceedings of the International Symposium on Advances in Spatial and Temporal Databases,London:Springer-Verlag,2001:236-256.

[8]SHEKHAR S,LU C T,ZHANG P S.A unified approach to detecting spatial outliers[J].Geoinformatica,2003,7(2):139-166.

[9]SHEKHAR S,LU C T,ZHANG P S.Detecting graphbased spatial outliers:algorithms and applications[C].Proceedings of the 7th ACM SIGKDD international conference on Knowledge discovery and data mining.New York:ACM,2001:371-376.

[10]李德仁,王树良,李德毅.空间数据挖掘理论与应用[M].北京:科学出版社,2006:569.

[11]BLACKMAN S,POPOLI R.Design and analysis of modern tracking system[M].Norwood:Artech House,1999.

[12]BAR-SHALOM Y,BLAIR W D.Multitarget-multisensor tracking:applications and advances volumeⅢ[M].Norwood:Artech House,2000.

[13]HOFMANN-WELLENHOF B,LICHTENEGGER H,COLLINS J.Global positioning system:theory and practice[M].Wien&New York:Springer-Verlag,1994.

 
于四全,毕建涛
《科技创新与生产力》2018年第04期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号