快捷分类

一种自动确定特征向量与类别数目的谱聚类算法

更新时间：2009-03-28

聚类分析是数据分析领域中的一个重要研究方向.把所需处理的数据对象通过一个准则——“类内相似最大化,类间相似最小化”分成不同类或簇称为聚类.传统的聚类算法有K-means、EM算法等,上述算法在凸球形的样本空间上进行操作时具有良好的划分效果,但是当样本空间不为凸球形时,算法将呈现局部最优现象.为了解决该问题,学者们提出了一种新型的聚类算法——谱聚类算法,其能在任何形状的样本空间实现聚类,呈现收敛于全局最优解的结果.目前为止,学者们[1,2-3]从相似矩阵的创建、自动确定聚类数目、如何选取特征向量、如何选取Laplacian矩阵以及如何将谱聚类算法运用到大规模学习的问题中等5个方面对谱聚类算法提出了改进.针对自动确定聚类数目与特征向量的选取这两方面,较经典的有田铮等[4]在2007年提出的基于权矩阵的无监督谱聚类算法和孙昌思核等[5]在2010年利用特征值之间的差值分析提出的一种自动确定聚类个数的谱聚类算法,其根本都是根据特征值或者特征向量的特征信息差异化程度不同确定不同的聚类数目.

“蓝天计划”提出以规范化、专业化为方向，坚持以人为本的工作理念，有步骤、有计划地建设和完善儿童福利机构，为孤残儿童提供优质的特教、康复和保育服务，推动构建适合中国国情的儿童福利服务体系。国际最新的观念提出要实现专业整合的服务模式。特殊教育、康复、保育这三个部门能够协调起来，连同其他专业，为残疾儿童提供适合其本人的服务，就是特殊教育、康复、保育三位一体整合的服务模式。

基于谱聚类算法的思想,本文提出一种自动确定特征向量与类别数目的谱聚类算法.该算法通过构造Laplacian矩阵,之后利用特征值的差值,选取确定聚类数目与特征向量,最后利用K-means对其处理得到社团划分的结果.

1 谱聚类的相关理论

该算法可基本分为三个主要步骤[4-6]：1) 数据准备,根据某种准则构建样本集的相似度矩阵；2) 求解矩阵,通过计算矩阵的前几个特征值和特征向量,构建特征向量空间；3) 利用K-means或其他经典聚类算法对特征向量空间中的特征向量进行聚类.

谱聚类算法的思想来源于谱图划分理论[7-8].如果将每个数据样本对应图中的顶点V,同时根据样本间的相似度将顶点间的边E赋权重值W,这样就得到一个基于样本相似度的无向加权图G(V,E),那么在图G中就可以将聚类问题转化为在图G上的图划分问题.由于图划分问题——按划分准则求解最优解是一个NP难题,一个很好的求解方法是考虑问题的连续放松形式,这样便可以将原问题转化成求解相似矩阵的谱分解.目前大部分谱聚类算法中采用Laplacian矩阵作为相似矩阵.其中Laplacian矩阵[9-11]有如下性质：

其中：Ki为节点i的度;当i=j的情况下δi,j为1,其他情况下为0;A为邻接矩阵,如果点i与点j有边相连接Ai,j=1,否则为0.

Brookings：欧洲科技创新加剧收入不平等。近日，布鲁金斯学会发文称，全球金融危机后，欧洲经济持续复苏，但科技创新使收入不平等问题日益严峻。自动化、3D打印和人工智能等新技术为拥有良好技能的工人和前沿公司创造了更多机会，帮助其进一步提高生产率，但缺乏技能的工人和落后的公司则处于不利形势，导致生产率和工资差距不断拉大。

为了测试算法的可行性与划分结果的准确性,本文选取了复杂网络社团划分中常用的网络数据进行测试.一组是空手道俱乐部关系网络(Zachary网络),另外一组是海豚社会网络(Dolphin social network).表1展示了本算法与其他算法[16]在性能上的差别.

经营模式。在具体经营上主要以专业合作社、种养大户、家庭农场为主体，通过进行土地租赁或其他流转方式，实施集约化、规模化、标准化生产经营。

墙体形式：墙面材质整改后只有面砖、外墙防水涂料两种；墙面色彩只有白色一种；围墙总高2.15m，墙体高1.8m；

2) L的最小特征值为0,且与之对应的特征向量全为1；

1) L为半正定矩阵；

本文主要针对如何确定聚类数目以及如何选取特征向量进行改进[12-15].先求解出要划分的网络节点的拉普拉斯矩阵的特征值,即λ1,λ2,λ3,…,λn；之后利用特征间隔公式C(i)=eλi+1-eλi求解出最大的特征间隔C(i)并记为C(i)max；令p=arg C(i)max,此时选取前N-p-1个特征向量,其中N为复杂网络中的节点数,p为最大特征间隔的自变量.利用K-means算法对前N-p-1个特征向量进行处理,分成N-p-1个簇,这样不仅可以确定聚类的数目同时也选取了应被处理的特征向量.具体算法如下：

2 本文提出的自适应谱聚类算法

3) 半正定矩阵L有n个特征值,其中都是大于或者等于0,即：0=λ1≤λ2≤λ3≤…≤λn.

1) 计算邻接矩阵A,其中若点i与点j有边相连接则Ai,j=1,反之Ai,j=0；

3) 计算出矩阵L的特征值与特征向量,并把特征值按升序排列,即0=λ1≤λ2≤λ3≤…≤λn,其中特征值对应的特征向量分别为α1,α2,α3,…,αn-1(注：此处忽略特征值0以及与其相对应的特征向量,如果有0特征值,利用下面的公式分类会产生0个类别,没有实际意义)；

2) 通过邻接矩阵构造拉普拉斯矩阵L,其中Li,j=Kiδi,j-Ai,j,Ki为节点i的度,当i=j的情况下δi,j为1,其他情况下为0；

对这一酒瓶的外观进行观察不难发现，其外观主要吸收了明洪武年间的“釉里红缠枝菊花纹玉壶春瓶”，在此基础上，设计者刘亚维先生对酒瓶的口部、颈部、肩部等做了进一步的处理，使其在整体观感上更加美观大方，酒瓶的容量也在原有基础上有了一定程度的增加。通过对传统陶瓷器具的吸收改造，并将其应用到现代酒类容器包装设计之中，酒具能在体现出相关传统文化元素内涵的同时满足企业对于酒瓶的设计需求，将功能与审美有效的结合到一起。这样的设计形式在我国酒类包装设计中极为常见，五粮液、水井坊等品牌的造型设计都属于此类。通过这样的设计形式，传统陶瓷元素将在现代酒类包装设计中焕发出新的生机，进而持续不断的发展。

4) 根据公式C(i)=eλi+1-eλi计算出特征差值C(1),…,C(N-2)；

6) 用K-means算法对N-p-1个选出后的特征向量进行聚类,聚类数目为N-p-1.

5) 求解出C(i)max=max{C(1),C(2),C(3),…,C(N-2)},并令p=arg C(i)max选出N-p-1个前特征向量,即α1,α2,…,αn-p-1；

3 实验结果与分析

Laplacian矩阵有以下几方面的特点：

表1 不同算法性能分析

Tab.1 Performance analysis of different algorithms

算法名称时间复杂度备注聚类数Zachary/Dolphins 优缺点GNO(m2n)m为网络中边数，n为网络中的节点数2/3社区结构没有定量的定义，需引入一种衡量网络社区结构的指标Q值K⁃MeansO(ntkm)n为网络中的节点数，t为迭代次数，k为聚类数目，m为节点维数需预先指定聚类数目算法快速简单，但是不能自动确定聚类数目文献5O(n2+ntkm)n为网络中的节点数，t为迭代次数，k为聚类数目，m为节点维数2/2可自动确定聚类数目，但数据处理部分要对构造矩阵进行单位化处理计算复杂，且对参数值选取要依赖经验值本文算法O(n2+ntkm)n为网络中的节点数，t为迭代次数，k为聚类数目，m为节点维数2/2可自动确定确定聚类数目，但对复杂数据的处理有局限性

3.1 空手道俱乐部网络

对于Zachary karate club network(空手道俱乐部成员关系网络),求解出其拉普拉斯矩阵特征值以及C(i)(见表2).表3是本文算法选取的特征向量与节点划分结果.

表2 Zachary网络Laplacian矩阵特征值与C(i)

Tab.2 Eigenvalues of Laplacian matrix and C(i) of Zachary network

特征值特征间隔C(i)特征值特征间隔C(i)特征值特征间隔C(i)λ10．0060λ120．02580λ230．05910．0014λ20．01170．0058λ130．02580λ240．06940．0110λ30．01450．0028λ140．03210．0065λ250．07250．0033λ40．01630．0018λ150．03550．0035λ260．08170．0099λ50．02060．0044λ160．03890．0035λ270．08410．0026λ60．02270．0021λ170．04180．0030λ280．09030．0068λ70．02360．0009λ180．04360．0019λ290．12620．0400λ80．02520．0016λ190．04360λ300．14090．0168λ90．02580．0006λ200．04480．0013λ310．17170．0360λ100．02580λ210．05520．0109λ320．22010．0589λ110．02580λ220．05780．0028λ330．23400．0174

表3 选取的特征向量与节点类别

Tab.3 Selected eigenvectors and node category

节点特征向量1特征向量2节点标号节点特征向量1特征向量2节点标号1-0．11210．0694218-0．10020．150922-0．04130．09512190．1628-0．0607130．02320．0427120-0．01360．065124-0．05550．10582210．1628-0．060715-0．2846-0．1213222-0．10020．150926-0．3237-0．20172230．1628-0．060717-0．3237-0．20172240．1557-0．060418-0．05260．10132250．1530-0．0664190．05160．01471260．1510-0．07421100．09280．01311270．1871-0．0904111-0．2846-0．12132280．1277-0．0364112-0．21100．76482290．0952-0．0067113-0．10950．16072300．1677-0．0702114-0．01470．06962310．07350．01411150．1628-0．06071320．0988-0．02831160．1628-0．06071330．1303-0．0387117-0．4228-0．36982340．1189-0．02841

由表2可知，C(P)=0.058 9，则根据本文提出的公式得出取前N-p-1=34-31-1=2个特征值所对应的特征向量，同时用K-means分成N-p-1=2组.划分结果可以用图1表示.

Zachary空手道俱乐部网络是用来评价社团划分效果的常用实验网络.该网络由34个点、78条边组成.由于一些原因,该俱乐部形成了分别以主管和校长为中心的两个小俱乐部[17-18].应用本文提出的算法,该网络被划分成了2部分,从划分结果可以看出,本文提出的算法可以准确、自动地确定聚类类别.同时,根据公式选取了前两个次小特征值对应的特征向量,应用K-means算法聚类分析后社团节点划分结果的准确率达到了97.06%,进一步说明本算法自动选取的特征向量具有有效性.

图1 Zachary网络划分结果

Fig.1 Grid division result of Zachary network

3.2 海豚社会网络

对于Dolphin social network(海豚社会网络)求解出其拉普拉斯矩阵特征值以及C(i)(见表4).由表4可知,C(P)=0.006 3,则根据本文提出的公式得出取前N-p-1=62-59-1=2个特征值所对应的特征向量,同时用K-means分成N-p-1=2组.划分结果可以用图2表示.表5是本算法选取的特征向量与节点划分结果.“Dolphin social network”是D.Lusseau等人对栖息在新西兰Doubtful Sound峡湾的一个宽吻海豚群体(该群体由2个家族共62只宽吻海豚组成)进行长达7年的观察所构造出的海豚关系网.图中节点代表一个海豚,边表示两个海豚之间接触频繁.应用本文提出的算法,可以自动确定网络划分成两部分.同时,根据公式选取相应的特征值对应的特征向量,并且应用K-means算法聚类分析后,可以得出8、19、40被划分错误,但是点8在划分时可被分到为1组或者2组,本算法在此网络划分中的正确率为96.77%.可以看出本算法在特征向量选取上具有可行性.

表4 Dolphin social network Laplacian矩阵特征值与C(i)

Tab.4 Eigenvalues of Laplacian matrix and C(i) of Dolphin social network

特征值特征间隔C(i)特征值特征间隔C(i)特征值特征间隔C(i)λ10．0015λ120．00720．0004………λ20．00350．0020λ130．00760．0020λ520．06080．0031λ30．00420．0007λ140．00960．0008λ530．06170．0010λ40．00490．0007λ150．01040．0012λ540．06490．0034λ50．00520．0003λ160．01160．0011λ550．06750．0028λ60．00540．0002λ170．01270．0019λ560．06840．0010λ70．00560．0002λ180．01460．0006λ570．07120．0030λ80．00570．0001λ190．01520．0011λ580．07310．0020λ90．00630．0006λ200．01630．0003λ590．07560．0027λ100．00630λ210．01660．0021λ600．08140．0063λ110．00650．0002………λ610．08590．0049

表5 选取的特征向量与节点类别

Tab.5 Selected eigenvectors and node category

节点特征向量1特征向量2节点标号节点特征向量1特征向量2节点标号1-0．0737 0．00432…………20．10090．0777147-0．1376-0．032823-0．0928-0．0002248-0．05300．017524-0．0831-0．00192490．21730．046115-0．1161-0．0460250-0．1376-0．0323260．1883-0．0154151-0．0855-0．0064270．17710．0204153-0．0893-0．0207280．05970．0624153-0．0898-0．007729-0．07010．0029254-0．1208-0．01722100．1844-0．03381550．13120．0329111-0．07870．0039256-0．0935-0．0197212-0．1161-0．04602570．20660．0035113-0．1240-0．02292580．16710．02071140．1515-0．0434159-0．1278-0．0217215-0．0898-0．0072260-0．0701-0．0004216-0．0760-0．00792610．2977-0．76431…………62-0．1079-0．00962

图2 Dolphin social network划分结果Fig.2 Division result of Dolphin social network

4 结论

使用本文提出的特征间隔公式C(i)=eλi+1-eλi可以自动确定要选取的特征向量以及聚类数目.本文提出的算法不仅改进了谱聚类算法,也有效地解决了谱聚类数目由人工确定的问题,且聚类数目准确率达到100%.在特征向量选取方面,改变了直接选择前K个最大特征值所对应的特征向量用于构造新向量空间的方法.通过实验证明,本文提出的特征间隔公式可以有效划分复杂网络.

本文仅从谱聚类特征向量的选择与聚类数目的选取两方面改进,故对谱聚类算法的聚类精度虽然有所提高但仍存在一些不足和缺点,在日后工作中会继续研究.

FES最常发生于长骨和骨盆骨折，而闭合性骨折较开放性骨折更易发生。95%的股骨干骨折可发现脂肪栓塞，单侧股骨骨折约1%～10%发生脂肪栓塞综合征。双侧股骨骨折后，FES的发病率明显升高［2］。FES主要发生于成年人，尤其是青年男性，儿童罕见，原因是儿童骨髓以造血为主，脂肪较少［3］。

参考文献：

[1] 金建国.聚类方法综述 [J].计算机科学,2014,11A(41):288-293.

[2] GIRVAN M,NEWMAN M E J.Community structure in social and biological networks [J].PNAS,2001,99(12):7821-7826.

[3] 卜得云,张道强.自适应谱聚类算法研究 [J].山东大学学报(工学版),2009,39(5):22-26.

[4] 田铮,李小斌,句彦伟.谱聚类的扰动分析 [J].中国科学,2007,37(4):527-543.

[5] 孙昌思核,孔万增,戴国骏.一种自动确定类个数的谱聚类算法 [J].杭州电子科技大学学报,2010,30(2):53-57.

[6] SHEN Huawei,CHENG Xueqi,FANG Binxing.Covariance,correlation matrix and the multi-scale community structure of networks [J].Physical Review E,2010,82(1):016114.

[7] FIEDLER M.Algebraic connectivity of graphs [J].Czechoslovak Mathematical,1973,23(2):298-305.

[8] LUXBURG U.A tutorial on spectral clustering [J].Statistics and Computing,2007,17(4)：395-416.

[9] SHEN Huawei.Community structure of complex networks [M].Berlin:Springer,2013.

[10] 程学旗,沈华伟.复杂网络的社区结构 [J].复杂系统与复杂性科学,2011,8(1):57-67.

[11] 蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述 [J].计算机科学,2008,35(7):14-18.

[12] XIANG T,GONG S.Spectral clustering with eigenvector selection [J].Pattern Recongnition,2008,41(3):1012-1029.

[13] SHEN Huawei,CHENG Xueqi.Spectral methods for the detection of network community structure:a comparative analysis [J].Journal of Statistical Mechanics,2010,10:10020.

[14] 孔万增,孙志海,杨灿,等.基于本征间隙与正交特征向量的自动谱聚类 [J].电子学报,2010,38(8):1180-1185,1891.

[15] 卢鹏丽,赵玲艳,魏柏舟.基于改进相邻节点相似度的社团划分算法 [J].兰州理工大学学报,2015,41(6):104-108.

[16] 王伟,李玲娟.一种基于聚类的社团划分算法 [J].计算机技术与发展,2015,25(10):119-122.

[17] 张鑫,刘秉权,王晓龙.复杂网络中社区发现方法的研究 [J].计算机工程与应用,2015,51(24):1-5.

[18] 王益文.复杂网络节点影响力模型及其应用 [D].杭州:浙江大学,2015:37-79.

作者

卢鹏丽，才彦姣

出处

《兰州理工大学学报》 2018年第02期

上一篇：反射式极化变焦人工电磁表面的设计

下一篇：Logistic模型描述控制参数的灰狼优化算法

《兰州理工大学学报》2018年第02期文献

Mg2Si1-xSnx合金的组织和性能作者：周琦，臧树俊，李延荣

Cf表面修饰对Cf-包覆Cu/Mg2Si-Al2O3复合材料组织与性能的影响作者：臧树俊，周琦，李亚玮，郑斌

纯镍在900 ℃熔盐中的热腐蚀行为作者：王希靖，王博士，张东

不同电镀工艺镍网的微观结构和性能对比作者：夏天东，张朝奋，徐仰涛，郭龙帮

基于MPI并行的PF-LBM三维枝晶生长模型模拟计算作者：朱昶胜，金显，邓新，冯力

拉伸速率对碳纤维单丝拉伸性能的影响作者：季根顺，张梅英，贾建刚，薛向军，郝相忠

空冷器管箱焊接处的焊缝强度分析作者：黄健康，于永龙，杨茂鸿，王梓懿，石玗，樊丁

基于XFEM的微裂纹对主裂纹的影响机理作者：芮执元，胡序春，冯瑞成，剡昌锋

基于产品形态美度的评价模型及应用作者：苏建宁，李明，周爱民，张书涛

等螺距诱导轮的螺距变化对离心泵汽蚀性能的影响作者：程效锐，符丽，包文瑞

离心泵新型轴向力平衡装置动态轴向力计算及设计方法作者：刘在伦，杨建霞，吴新瑞，邵安灿

极端运行阵风下风力机的气动特性作者：李仁年，刘恒，李德顺，刘姝君

HL638-WJ-84型水轮机增容改造及数值预测作者：敏政，岳巧萍，田亚平，韩伟

水对N-甲基吡咯烷酮水解的影响作者：欧玉静，朱亚龙，李春雷，王晓梅

原油管道内壁蜡沉积模拟软件开发及沉积特性作者：郭凯，张华

高载能负荷参与的集群风电场并网系统经济调度模式作者：张晓英，廖顺，张蜡宝，王琨，陈伟

反射式极化变焦人工电磁表面的设计作者：杨富龙，王晓燕

一种自动确定特征向量与类别数目的谱聚类算法作者：卢鹏丽，才彦姣

Logistic模型描述控制参数的灰狼优化算法作者：陈清容，唐斌

基于室内定位技术的图书馆推荐算法作者：马元元，蒋子规，刘艳飞，郝海涛

公共自行车系统站点设置和锁桩配置评价研究作者：赵宏，史瑞刚

兰州地铁沿线粉质黏土的冻胀融沉特性作者：毕贵权，穆丽静，王冬

水驱型层状岩质边坡破坏机理的讨论作者：夏良，符贵军，陈浩

非均匀饱和土中P-SV波的频散特性分析作者：刘汉青，曹小林，任圆圆

方钢管桁架垂直相贯缺陷节点的加固方法作者：王秀丽，张虎跃，张强，苏海明，吴小燕

消石灰和水泥改性沥青混合料的路用性能作者：李萍，张盼，念腾飞，毛昱

渗流条件下弃渣场边坡的稳定性分析作者：毛雪松，宋玉品，吴谦，刘龙旗，肖亚军

基于熵权的G-FME厂址选择综合评价模型作者：李婷，王秋平，解锟

Poisson冲击下温贮备可修系统的可靠性分析作者：张民悦，李彩凤

一类非线性Caputo型分数阶微分方程解的存在性作者：苏莹，薛益民

杂志信息网