更全的杂志信息网

基于信号传递的半监督谱聚类社区发现算法

更新时间:2009-03-28

0 引 言

社区发现根据研究方法不同现已总结形成了许多有代表性的方法。基于谱聚类的谱方法是社区发现的一种有效手段,相比传统聚类算法如K-means、Single Linkage等,谱聚类与传统聚类方法相比具有多项先天优势,是社区发现领域有效方法之一[1],且具有广泛应用[2-4]

谱聚类算法通过衡量数据相似度形成相似矩阵,但在社区发现领域通常以表示节点连接关系的邻接矩阵进行替代。邻接矩阵以简单的0-1关系描述节点邻接状态,此举难免导致节点间隐含关系在谱聚类过程中缺失。此外,在部分现实情况下能够事先获得有关社区划分的某些先验知识,如某社团的领导人或较有影响力的人等。根据半监督学习的思想,利用先验知识辅助无监督的谱聚类方法,提升基于谱聚类的社区划分效果[5]

为将节点间相似度应用到基于谱聚类的社区发现方法中,并利用网络中部分节点的先验知识提升社区发现效果,本文基于以下两点改善思路进行研究:①利用网络节点相似度衡量方法,衡量复杂网络节点间相似关系,形成相似矩阵以代替邻接矩阵构造拉普拉斯矩阵;②通过一种基于半监督学习思想的半监督谱聚类方法,将网络先验知识引入聚类过程,同时配合相似度衡量方法共同改善社区发现效果。经研究发现,将一种基于信号传递原理的相似度构造方法与一种半监督的谱聚类方法进行结合,能使社区划分效果获得改善。特别在传统谱聚类划分方法结果不理想情形下,基于半监督思想的谱聚类方法运行结果提升明显。

中国老龄化的进程在30多年的时间里迅速推进。30多年的时间,中国人口再生产模式走过了欧洲300年的历程,但应对老龄化到来的物质、制度等方面尚未做好准备。在财政资金有限的情况下,政府对老年补助、养老服务和硬件设施上的投入严重不足。

1 相关工作

前人于社区发现领域谱方法优化方面投入大量研究。Qin与Rohe提出一种正则化谱聚类社区发现方法[6]。除针对谱聚类方法本身进行优化,许多研究者亦通过寻找合适的节点相似度度量方法改善社区划分的效果。施伟等借助连边相似度进行重叠网络划分[7];Zhixiao Wang等利用拓扑势的概念诠释节点间关系并构造拉普拉斯矩阵[8]。上述研究均证实通过合适的相似度衡量方法能够改进谱聚类在社区发现领域的改进效果。

根据半监督学习思想,利用先验知识辅助社区发现过程是一种有效的改进方案。研究证实,在基于搜索的算法中,用户提供的先验知识或节点标签能够对聚类过程产生影响。在传统社区发现方法划分效果不理想时,基于半监督学习的思想利用网络的先验知识辅助划分过程,划分效果将能够获得改善。

在教授《失败怕什么》一课时,有的教师引入了“学习滑板”的例子。“学习滑板”这件事与孩子的生活距离很近,班上有25个孩子会滑滑板,有14个孩子虽然没学会但尝试过。孩子们的体验非常丰富,听别人讲述学滑板的故事时马上就能激活自己的回忆:摔跤、受伤、气恼、痛苦……视角切换后的课堂真情涌动,学生们积极讨论学习滑板的经验与方法,讲述自己克服困难的经历与感受,孩子似乎有说不完的话,迥异于宏大视角下“爱迪生”故事的教学氛围。

输入:

虽然增加了一笔开销,但是心情总算是稳定下来了,上班的时候,晚上应酬的时候,踏实多了。那大爷呢,也乐滋滋的,坐在小区看风景,还能挣了钱,何乐而不为。如此这般过了几天安心日子,一日冯一余下班回来,发现自己的车位又被别的车占了,大爷不在,他正奇怪呢,那大爷却在另一个地方喊起他来,过去一看,大爷端个凳子坐在另一个车位上。冯一余赶紧说,大爷,您坐错了位子。那大爷笑呵呵道,我没有坐错。冯一余说,可我的车位是那一个呀。大爷用脚点了点脚下的地,说,可是我屁股底下的这个车主,给了我30块呀。一边说,一边掏出冯一余头天付给他的20块钱,塞到冯一余手里,说,这个我要还你的。

2 算法描述

2.1 信号传递

Hu等提出一种基于信号传递原理的描述网络中节点间关系的衡量方法,并结合基于F统计的fuzzy C-mean聚类方法进行社区划分,其中信号传递原理如下:

给定网络结构(如图1所示),初始各节点信号值为0。随机挑选任一节点(如节点1),赋予其初始值为1的信号量。此后在每次迭代过程中,各节点都将自身现有的信号量传递至与其直接相连的邻接节点,该过程被称为信号传递。图1给出信号进行4次传递的具体过程。

  

图1 信号传递

MES(Manufacturing Execution System)即制造企业生产过程执行系统,是一套面向制造企业车间执行层的生产信息化管理系统[3]。MES可以为企业提供包括制造数据管理、计划排产管理、生产调度管理、库存管理、质量管理、人力资源管理、工作中心/设备管理、工具工装管理、采购管理、成本管理、项目看板管理、生产过程控制、底层数据集成分析、上层数据集成分解等管理模块,为企业打造一个扎实、可靠、全面、可行的制造协同管理平台[4]。

2.2 半监督谱聚类

谱聚类利用数据构造拉普拉斯矩阵,通过计算特征值特征向量,将数据映射到K维空间进行K-means聚类。拉普拉斯矩阵实现模式多样,给定网络结构度矩阵D和相似矩阵W,标准拉普拉斯矩阵定义如下

优质的思想政治教育是培养高素质人才的保障,加强思想政治教育的研究,探讨思想政治教育的有效途径,才能使思想政治教育取得好的效果,才能使大学生思想政治素质得到提高,进而使大学生符合社会发展的要求。经过社会、教育者和大学生的共同努力,相信思想政治教育会朝着更好的方向发展,大学生的思想政治素质会得到更大地提高。

L=D-W

(1)

有两种形式的拉普拉斯矩阵被称为规范化的拉普拉斯矩阵,两者彼此联系紧密[9],定义如下

Lsym=D-1/2LD-1/2

(2)

Lrw=D-1L

(3)

其中,Lsym为对称矩阵,Lrw与随机游走思想相关。本文算法中的拉普拉斯矩阵构造将采用Lrw的形式。

基于上述描述,本文算法步骤如下:

(4)根据式(6)计算拉普拉斯矩阵Lsemi

 

(4)

其中,vol(Vin)=∑kVindkdi为第i个节点度值即Diif(i)作为先验知识中,分属两社团节点度值和之比附加项,定义如下

 

(5)

则半监督谱聚类的拉普拉斯矩阵构造方式如下

Lsemi=Lrw+γttT

(6)

其中,γ>0,其含义为先验知识重要度。乘项γttT作为规范化谱聚类的秩1修正,将先验知识中节点分类标签引入拉普拉斯矩阵计算过程中。再根据谱聚类方法,假设将数据划分为K类,则计算Lsemi前K小非零特征值对应的特征向量,利用它们形成n×K矩阵,每行代表该行对应节点在K维空间的坐标。对n个K维坐标点进行K-means聚类,聚类结果即为社区划分结果。

2.3 基于信号传递改进半监督谱聚类

本研究通过调查了解横店影视职业学院足球选项课开展现状,探讨制约学院足球选项课发展的因素,力求通过本研究的成果为横店影视职业学院足球选项课教学的改革和建设良好的高职院校足球文化环境提供一定的理论参考依据。

基于信号传递的半监督谱聚类社区发现算法(Semi Signal)

基于上述描述,一方面由于多数基于谱聚类的社区发现方法仍以邻接矩阵中简单的0-1关系为基础构造拉普拉斯矩阵,以节点相似度进行替代的研究取得了良好的改进效果,因此希望通过一种基于信号传递原理的相似矩阵构造方法,改进谱聚类在社区发现领域的应用效果。另一方面,在谱聚类方法中引入半监督学习思想,并将上述基于节点相似度的改进应用至半监督的谱聚类方法,提升社区划分效果。

G(VE):包含n个节点网络的图结构,包括网络节点集合V,边集合E和邻接矩阵A,社区划分社团数为K。

输出:

基于以上描述,给定具有n个节点的网络结构G,依次以各节点为起始节点进行T次信号传递,使网络中每个节点都拥有信号值。在传播完成后n个节点的信号量将形成一个n维向量,值为当前各自的信号量大小,完成一次信号传播。以各个节点为起始均进行一次信号传播过后,将获得n个行向量,将其构造成n×n矩阵,计算每对列向量间的欧氏距离,获得对应节点对相似度值。为保证相似矩阵的稀疏性,该过程仅计算具有邻接关系的节点对相似度,并形成相似矩阵,代替邻接矩阵进行拉普拉斯矩阵计算。

最后计算拉普拉斯矩阵并进行谱聚类。这里假设网络具有2个社团即K=2,先验知识为重要度γ=1。谱聚类运行结束获得社区划分结果为{1,2,3},{4,5}。

步骤:

(1)根据信号传递原理,分别选取各节点为初始节点进行T次信号传播,使信号传播充分。记录各终态各节点的信号量,从而获得n个n维向量si,i∈{1,…,n},构造矩阵

(2)根据网络邻接矩阵A,计算具有邻接关系节点对在矩阵S中对应列向量间的欧式距离,即在Aij=1时,计算Sij个列向量间欧氏距离。计算结果代表第ij个节点之间的相似度;

产业扶贫是解决“一方水土养活不了一方人”的重要措施,是让搬迁移民“稳得住、能致富”的突破口。惠水县以金融助推产业,以产业带动就业,通过阶梯利率浮动及授信额度调整措施,鼓励地方优质企业吸纳搬迁移民就业,通过联结企业与搬迁移民利益,实现金融扶持产业的同时带动搬迁移民就业,由“输血”变为“造血”,有效解决搬迁移民增收脱贫问题。

(3)利用相似度形成相似矩阵W,其中Wij=Wji表示第ij个节点之间相似度,并形成度矩阵D,其中

Mazumder等提出一种半监督谱聚类方法,该方法假设网络结构包含两个社团V1V2,且已知部分正确归类,即已知V1V2的子集定义定义向量t

(5)计算Lsemi前K小非零特征值对应特征向量,将对应节点映射至K维空间进行K-means聚类,聚类结果即为社区划分结果。

通过一个简单例子展显该算法具体流程。假设给定网络结构如图2(a)所示,共包含5个节点且初始信号量为0。现分别选取各节点为初始节点构造矩阵S,首先假设以节点1为初始点,设节点1的信号量为1其余仍为0,进行3轮信号传递后各节点的信号量将如图2(b)所示。

  

图2 信号量传递

由此获得s1=[9,9,10,4,1]。再分别以其它节点为初始进行信号传递,过程同上,获得矩阵S

 

参考邻接矩阵A,在S基础上计算具有邻接关系的节点对相似度,例如节点2、3邻接,则计算矩阵S中第2列、第3列列向量间欧氏距离4.3589,则相似矩阵中,W23=W32=4.3589。该网络邻接矩阵A及相似矩阵W最终计算结果如下

度矩阵DW对行(列)求和获得

 

网络G的硬划分。

5)测量前要自然晾干标本表面水份(或用干毛巾擦拭完标本表面水份),要在0~5h内尽快完成电性参数测量工作[6];

3 实 验

为衡量算法效果,通过选取部分谱聚类与非谱聚类社区发现方法进行对比实验。对谱方法,分别选取前述的基于标准拉普拉斯矩阵的标准谱聚类Standard,基于规范化拉普拉斯矩阵的两类规范化谱聚类SYM、RW,半监督的谱聚类Semi,以及本文算法Semi Signal;非谱方法选取Fast-Newman(FN)作为对比。

为衡量划分结果,以模块度Q和NMI值来进行评估。模块度由Newman提出,用于评估网络分块的好坏,一般取值在0.3~0.7,在该合理取值范围内更大的Q值表示分块结果更好。NMI(normalized mutual information)是一种衡量两个区块相似度的评价指标[10],可用于衡量社区划分精确度,取值为[0,1]。现实网络选取空手道俱乐部网络,海豚关系网络,美国西部电力网,以上数据集均由Newman个人网站上获取。人工网络通过LFR(Lancichinetti-Fortunato-Radicchi)生成。实验由Matlab实现,分类结果图通过Pajek生成。

3.1 空手道俱乐部

空手道俱乐部网络是复杂网络研究中最具代表性的实验对象之一。该网络包含34个节点,2个社团,节点1与节点34是公认两个社团的“社团领袖”。据此,实验中的参数设定为 本文算法Semi Signal的社区划分结果如图3所示。

1343 Cause analysis and management of liquefactive necrosis of thyroid nodules after microwave ablation

  

图3 空手道俱乐部的Semi Signal划分结果

通过算法对比实验,结果表明FN算法与本文算法均认为节点{3,10}属于节点1所在社团,而RW、SYM谱聚类方法认为其从属于节点34所在社团。各算法运行结果模块度Q对比见表1。说明信号传递原理的引入使半监督谱聚类的聚类效果获得了明显提升。其原因在于原Semi算法中的修正项由邻接矩阵计算,而网络本身节点数量较少,单纯的非0即1的关系值所得附加项扰乱了拉普拉斯阵对网络社团关系的体现。信号传递原理则形成节点相似度,合理体现出同社区节点间差异小、不同社区节点间差异大的公认社团关系,使聚类效果获得提升。

张亦民:《浙江第一师范在新文化运动中的地位和作用》,《张亦民史文选》,张亦民自印资料2000年9月印刷,第37页。

 

1 空手道俱乐部算法模块度Q对比

  

AlgorithmQStandard0.2340RW0.3600SYM0.3600Semi0.1328SemiSignal0.3718FN0.3718

3.2 海豚关系网络

在海豚关系网中,包含分属两个社团的62只海豚。实验中参数设置如下: 图4给出显示Semi Signal在海豚关系网的划分结果,表2给出各算法运行结果模块度Q对比。随着节点数量提升,Semi方法表现趋于稳定,改进方法亦达到相同效果,较传统谱聚类方法有微量提升。FN算法因其趋于更大Q值的计算原理,在海豚网络中取得更优效果。

其中,Eff是运营效率;size为企业规模,用总资产对数衡量;ms为市场份额,由公司销售额占该行业企业总收入的比例表示;cfi表示自由现金流,用企业自由现金流与总资产的比值衡量;div为经营多样化,用营业收入来源中不同行业数量来表示;age表示上市年限;e为残差,即为所求的管理者能力变量。

  

图4 海豚关系网的Semi Singal划分结果

 

2 海豚关系网算法模块度Q对比

  

AlgorithmQStandard0.3787RW0.3787SYM0.3787Semi0.3848SemiSignal0.3848FN0.3854

3.3 美国西部电力网络

为在更大规模网络结构上对该算法进行评估,实验选取美国西部电力网络。该网络由D.Watts 和S.Strogatz提供,包含了4940个节点。算法的参数设置为 表3给出各算法结果的模块度。模块度Q的合理取值范围为0.3至0.7之间,而FN算法在本次实验中的Q值超过了合理上限0.7。实验结果表明信号传递原理通过计算节点相似度,对半监督谱聚类效果具有改善作用。节点相似度作用于相似矩阵、秩1修正项计算过程,使拉普拉斯矩阵更合理地体现出网络的社团关系,谱聚类因此达到良好的社区划分结果。

 

3 美国西部电力网模块度Q对比

  

AlgorithmQStandard0.6322RW0.6412SYM0.6363Semi0.6359SemiSignal0.6447FN>0.7

3.4 LFR人工网络

为进一步衡量算法效果,实验利用LFR生成人工网络。实验发现,对于一般情况的网络,例如包含100个节点平均度为9的网络,各种算法在其上的运行结果NMI值均接近甚至达到了1,即分类结果与真实情况基本吻合。由于半监督聚类思想的引入主要是为了在传统算法效果不理想时能够利用先验知识辅助聚类过程,故将人工网络平均度降低,并在此基础上对各方法进行实验。在规模为100、200个节点的人工网络(LFR100、LFR200)实验过程中,图5、图6分别给出各算法运行结果的模块度Q、NMI值对比。实验结果表明,在标准谱聚类和规范化谱聚类无法获取理想划分时,Semi,Semi Signal,FN算法均能达到较好结果。在LFR200人工网络中FN算法取得了最高的NMI值即最高的精确度,而各项指标结果均能体现信号传递原理对半监督谱聚类划分效果的改善。由于半监督谱聚类方法本身合理利用先验知识,与传统谱聚类相比改进效果明显。通过各算法的实验对比,基于半监督学习思想的谱聚类方法较传统谱方法具有明显的提升。

  

图5 LFR100、LFR200于各算法模块度Q对比

  

图6 LFR100、LFR200于各算法NMI对比

在LFR人工网络实验中,出于简便的缘故仅实验了先验知识子集只包含一个节点的情况,即之中只一个对象,在该限制情况下改进前后的半监督谱聚类方法即已取得了较传统谱聚类较为明显的改进。而在更大规模的人工网络上,改进前后的半监督谱聚类算法的效果对比体现了通过信号传递原理评价节点相似度并投入谱聚类运算的有效性。图7显示了在各规模LFR人工网络下,引入信号传递原理前后的社区划分NMI结果。

  

图7 改进前后算法在LFR人工网络的NMI效果对比

4 结束语

谱聚类作为一种优秀高效的聚类方法,是社区发现议题一种成熟良好的解决方案,本文基于信号传递原理的改进提高了谱方法的社区划分效果,并通过引入半监督学习思想在传统谱方法效果不佳时提供更可信的划分。实验验证了信号传递原理改进了半监督谱聚类方法的运行效果,使社区划分效果获得提升。

该方法不足之处在于,信号传递计算过程中需要以每个节点为初始点进行信号的扩散传递,尽管可以通过矩阵的对称性简化运算,在网络规模较大时,相似矩阵生成过程仍需消耗较多的时间,故下一步需要研究对该方法运行效率得优化。

参考文献

[1]Van Gennip Y,Hunter B,Ahn R,et al.Community detection using spectral clustering on sparse geosocial data[J].SIAM Journal on Applied Mathematics,2013,73(1):67-83.

[2]Langone R,Suykens JAK.Community detection using kernel spectral clustering with memory[C]//IC-MSQUARE,2012:3877-3884.

[3]JIANG Shengyi,YANG Bohong,WANG Lianxi.An adaptive dynamic community detection algorithm based on incremental spectral clustering[J].Acta Automation Sinica,2015,41(12):2017-2025(in Chinese).[蒋盛益,杨博泓,王连喜.一种基于增量式谱聚类的动态社区自适应发现算法[J].自动化学报,2015,41(12):2017-2025.]

[4]Zhang X,Newman MEJ.Multiway spectral community detection in networks[J].Physical Review E,2015,92(5):052808.

[5]ZHAO Weizhong,MA Huifang,LI Zhiqing,et al.Efficiently active learning for semi-supervised document clustering[J].Journal of Software,2012,23(6):1486-1499(in Chinese).[赵卫中,马慧芳,李志清,等.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499.]

[6]Qin T,Rohe K.Regularized spectral clustering under the degree-corrected stochastic blockmodel[C]//Advances in Neural Information Processing Systems.Burlington,Massachusetts,2013:3120-3128.

[7]SHI Wei,FU Hegang,ZHANG Cheng.Overlapping communities detecting based on similarity of edge[J].Application Research of Computer,2013,30(1):221-223(in Chinese).[施伟,傅鹤岗,张程.基于连边相似度的重叠社区发现算法研究[J].计算机应用研究,2013,30(1):221-223.]

[8]Wang Z,Chen Z,Zhao Y,et al.A community detection algorithm based on topology potential and spectral clustering[J].The Scientific World Journal,2014,2014(2):329325.

[9]Huang L,Li R,Chen H,et al.Detecting network communities using regularized spectral clustering algorithm[J].Arti-ficial Intelligence Review,2014,41(4):579-594.

[10]Li HJ,Zhang J,Liu ZP,et al.Identifying overlapping communities in social networks using multi-scale local information expansion[J].The European Physical Journal B,2012,85(6):1-9.

 
崔宇童,牛强,王志晓
《计算机工程与设计》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号