更全的杂志信息网

一种基于最大公共子图的文本谱聚类算法

更新时间:2009-03-28

随着互联网的飞速发展,人们访问和获取的信息呈几何级数急剧增长,如何有效地对海量文本信息进行聚类一直是文本挖掘领域的一个研究热点。大多数传统的聚类算法都是基于凸样本空间,当样本空间不凸时,算法容易陷入局部最优。为了对任意形状的样本空间都能够进行聚类并收敛到全局最优解,学者们提出了一种新的聚类算法——谱聚类算法 [1]。首先,根据给定的样本数据集定义一个相似矩阵来描述数据点之间的相似性,然后计算矩阵的特征值和特征向量,最后针对不同的数据点选取合适的特征向量来完成聚类。谱聚类算法已成功地应用于语音识别、图像和视频分割、文本聚类等领域。

公众是社会监督的一个重要的部分。如果公众敢于揭露企业的环境污染问题,政府同时发挥其该有的作用,必将产生法律监管无法达到的社会效果。这种政府主导的公众参与方式,是日本环境会计成功的重要原因。全民教育也是培养环境友好型管理人才的好方法。

谱聚类算法是一种基于图论的聚类算法,其本质是将聚类问题转化为图的最优切分问题,在文本聚类方面具有很好的应用前景。传统的谱聚类算法是基于向量空间模型(Vector Space Model)来进行相似矩阵的构造,VSM模型通过向量空间进行文本表示,进而将文本转换为向量形式,并在向量空间中计算文本相似度[2]。虽然该模型具有简单高效、处理方便的优点,然而该模型也存在一些不足之处:一是特征维度较高,冗余信息和稀疏数据较多;二是特征项相互独立,无法体现特征项在文本中出现的顺序、特征项之间的关联等文本结构信息。针对基于VSM的文本聚类存在的问题,Adam Schenker等人提出用图结构来进行文本的表示,该模型利用图结构中的边来体现文本中上下文之间的潜在关系[3]。在此基础之上,本文提出了一种基于最大公共子图的谱聚类算法(Spectral Clustering algorithm based on Maximum Common Subgraph)简称SC-MCS算法,同时设计了实验,将SC-MCS算法与基于VSM的谱聚类算法进行对比,并且对不同文本长度的聚类环境进行了探究,结果表明SC-MCS算法相比与传统基于向量空间的文本聚类算法在准确率、召回率有一定提升。

对于每个人来讲,乡村的一草一木、一景一情,都是他割舍不断的情结。很多时候,我常常通过各种媒体关注家乡的变化。我知道,这些年家乡的许多村子如同舒展开放的花一样越建越美丽,美丽得让人心生嫉妒。这些美丽的乡村仿佛散落或簇拥成片的花圃,将黄骅的农村点缀得美不胜收。

1 谱聚类基本理论

1.1 图划分准则

谱聚类算法最初源于图划分理论,通过将每个数据样本映射为图中的顶点V,样本之间的相似度映射为顶点间的边E的权重值W,这样就得到了一个基于样本相似度的无向加权图G=(V,E,W)。进而在图G中,就可以将传统的聚类问题转化为在图G上的图划分问题。同时定义图划分准则,通过最优化图划分准则,使得同一类内的点相似性较高,而不同类之间的点相似性较低。划分准则的优劣将对聚类结果产生直接影响,主要的划分准则有最小切分准则、规范化切分准则以及多路规范化切分准则等[4]

在图划分理论中,定义将图G划分为AB两个子图的代价函数:

 

其中AB=V,AB=∅,w(u,v)是顶点间边的权重值,最小化上述函数值来划分图G,这一划分准则即为最小切分准则,该准则对一些简单的分割可以产生良好的效果,但同时该准则容易出现倾斜分割的问题。为避免这种情况的发生, Shi和Malik提出了规范化切分准则[5],该准则是根据谱图理论建立的2-way划分的规范化切分目标函数(N-cut):

 

其中,最小化Ncut函数即为规范化切分准则。上述两个切分准则是将图G划分为两个子图AB,如果需要划分为多个子图,则需要采用多路规范化切分准则,该准则是最小化目标函数(MN-cut):

Else ni,nj之间没有边;

MNcut=

该准则是能够将图G同时划分为k个子图的 k-way划分的规范化切分。当k=2时,MN-cut与N-cut等价。

1.2 相似矩阵及拉普拉斯矩阵

传统方法求解图划分准则的最优解是一个NP难问题,进而考虑问题的连续放松形式——求图的拉普拉斯矩阵的谱分解问题,可以认为谱聚类是对图划分准则的一种逼近。

在谱聚类算法中,相似矩阵A的定义:

Aij=exp(-d(xi,xj)/(2σ2))。

其中,xi为数据样本,d(xi,xj)一般取为人工指定的参数。将相似矩阵的每行元素相加,即得到该顶点的度,以所有度值为对角元素构成的对角矩阵即为度矩阵,度矩阵常用D表示[6]

拉普拉斯(Laplacian)矩阵分为非规范拉普拉斯矩阵和规范拉普拉斯矩阵。非规范拉普拉斯矩阵表示为L =D -A, 规范拉普拉斯矩阵有两种形式, 分别是

Lsym=D-1/2LD-1/2=I-D-1/2AD-1/2

Lrw=D-1L=I-D-1A

根据不同的划分准则及相似矩阵的构造方法,谱聚类有不同的具体实现方法,其主要的过程:构建样本集的相似矩阵A;构造拉普拉斯矩阵L;计算L的特征值与特征向量,构成特征向量空间;对特征向量采用k-means或其他经典聚类算法进行聚类。

2 SC-MCS算法

传统的文本谱聚类算法在构造相似矩阵时,不能充分体现文本上下文之间的潜在关系,针对这一问题,本文提出了一种基于最大公共子图的谱聚类(SC-MCS)算法。SC-MCS算法采用图结构来表示文本,通过计算文本图结构之间的最大公共子图来体现文本之间的相似性,进而构造出基于最大公共子图的相似矩阵。SC-MCS算法的具体过程如图1所示。

  

图1 基于最大公共子图的谱聚类具体过程

2.1 文本的图结构表示

基于图结构的文本表示能很好地反映文本的结构信息,并保留重要的语义信息。文本的图结构可以定义为一个三元组的形式,即G =(N,E,W),其中:

N为节点集合,N={n1,n2,…,nk},每个节点ni表示一个特征项,k为去停用词之后特征项的数量;

E为边的集合,E={e1,2,e1,3,…,ek-1,k},每条边eij表示两个节点ninj之间的共现关系;

W为边的权重集合,W={w1,2,w1,3,…,wk-1,k},wij为边eij的权重。

“衍波纸”是指寄寓无尽相思的信笺,诗人试揣摩智朴内心,以其口吻说出“天风吹堕衍波纸,故人常望明河湾”,认为明亡之痛影响智朴一生,“出家不弃尘世劳,至老难休故国思”,智朴思故国之心愈是殷切,所显之情便愈凄婉苍凉。

Step4 根据特征向量聚类结果,返回文本集聚类结果。

(1)科学设置各个管理岗位,并妥善限定公路大中修养护人员数量,对下属的养护单位进行有效划分,将公路大中修养护工程中的各项资源进行全面整理,加强配置,构建结构更为合理的公路养护体系。

从文本di的特征项集合Tdi中任取两个特征项,∀ ni,njTdi,读取原始文本di,如果ninj在文本di的共现单元窗口中共现,加入集合Gi中,即Gi=(ni,nj,eij,wij);

你厉害,能一年挣几十万,大老板啊,当然瞧不起我,没准我毕业后还跟你打工哩。我呸。做日本浪梦。浪呗,浪死裂熊。

通过以上步骤就可以将文本集合D={d1,d2,…,dn}转化为图结构G={G1,G2,…,Gn}集合。

图2是单个文本图结构构建的示意图。图结构中的节点反映了文本的特征项信息,边体现了特征项的共现信息及语序信息,边的权重反映了特征项之间语义关联程度。

作为他全部作品的“résumé”,在《卡拉马佐夫兄弟》中还有一种思想一闪而过:“索多玛的理想转化为圣母的理想,反过来,在索多玛中间开始闪烁着圣母的理想。”[5]542

  

图2 单个文本的图结构表示过程

2.2 最大公共子图求解

基于最大公共子图的文本相似度计算的理论依据是:如果两个图结构越相似,那么它们的公共部分就越多,即存在一个公共子图,因此可以用它们的最大公共子图来度量两个图结构的相似程度。先给出最大公共子图的相关定义[8]

定义1 子图(Subgraph)。已知两个图结构G1=(N1,E1,W1)和G2=(N2,E2,W2),如果满足N1N2E1E2∩(N1×N1),则称G1G2的子图,记作G1G2

定义2 最大公共子图(Maximum Common Subgraph)。已知两个图结构G1G2,如果存在另一图结构g,满足gG1gG2,并且不存在图结构g′,使得g′⊆G1,g′⊆G2,|g′|>|g|,则称图结构g是图结构G1G2的最大公共子图,记作mcs(G1,G2)。

两个图结构G1G2的最大公共子图,就是以G1G2全部共有的节点作为自己的节点,全部共有的边作为自己的边,取共有边上较小的权值作为自己边的权值所构成的图,即图结构G1G2的最大重叠部分。两个图结构重叠的部分越多,则它们就越相似。因此可以用最大公共子图mcs(G1,G2)对两个图结构的相似度进行度量。最大公共子图生成的示意图如图3所示。

  

图3 最大公共子图的生成

已知两个图结构G1G2,它们之间存在最大公共子图g,则g的求解过程分以下两个步骤进行:

计算边eij的权重wij,这里采用Salton指标来进行计算,其计算公式为式中freq(ni,nj)表示特征项ninj共同出现的次数,freq(ni)和freq(nj)分别表示特征项ninj分别出现的次数。

遍历图结构G1G2的节点,对节点进行比较,取图结构G1G2的公共节点作为g的节点;

g的节点集合中任意两个节点,如果这两个节点在图结构G1G2中都是邻接的,则产生一体边作为图结构g的边。

最大公共子图求解过程的伪代码:

function McsCal (G1,G2)

begin

初始化图结构G1;

高校生涯规划课程现状 我国的生涯规划经过10年的摸索与实践,取得一些进步,如社会上成立了一些专门的生涯辅导与培训机构,高校也普遍开设了大学生职业生涯规划课程。但是,目前大部分高校只是在大一开设大学生职业生涯规划课程,而且学时也较少,任课教师多是辅导员或负责学生工作的行政人员。任课教师往往只是去相应的培训结构接受为期几天的培训,然后上岗,虽然经过精心备课,课上也是大量引入案例,组织学生做活动、讨论等,但是由于缺乏体系完整的知识架构,加之被其他大量繁杂的工作所累,指导效果总是不尽如人意。

获取G1中的点集NodeSet1=n1,n2,…,np;

2)译码单元:对AHB-Lite下发的地址和数据进行译码,并分派给相关的寄存器;将控制单元的处理的结果送回总线;译码单元包括数据输入寄存器和控制寄存器,控制寄存器主要控制加速核的工作模式和标志起始工作状态。

获取G2中的点集NodeSet2=n1,n2,…,nq;

for eachni in NodeSet1

for each nj in NodeSet2

Compare(ni,nj);

Ifni=nj then

(1)乙方(师)在合作科目上为甲方(生)指点迷津,及时指出甲方错误,耐心解答甲方问题,达到提高甲方知识运用能力的目的。

Addni(nj) to g;

end for each

end for each

∀ ni,nj∈g

If there iseij∈G1and also eij∈G2Then

addeij to g,min(wij) to eij;

在设计螺旋结构时,在进料口端应将螺旋轴上的螺旋叶片布满,可预防进料口内侧形成饲料的堆积而形成板结,还能有效地防止粉末料由螺旋输送器端盖缝隙中溢出而造成轴承的腐蚀;在出料口端,进料口和出料口的两个内侧面之间应至少大于1.5个螺旋节距,以防止螺旋停止转动后,进料口和出料口之间未被螺旋叶片完全封闭而造成漏料现象。为了达到较高的下料精度,螺旋加工时需合理控制其误差,本设备选用连续冷轧螺旋叶片,在小批量生产时,也可直接车削加工。

初始化图结构G2;

return g;

end

2.3 文本相似度计算

利用文本的最大公共子图来进行文本的相似度计算,最大公共子图充分包含了文本之间的相似信息,可以根据其在文本图结构中所占的比例大小来完成相似度估计,具体相似度计算公式:

 
 

其中,N(mcs(G1,G2))表示G1G2最大公共子图的节点个数,max(N(G1),N(G2))表示取G1G2两图中节点个数的较大值;Emcs表示G1G2最大公共子图的边,wijwij分别表示G1的边eijG2的边eij上的权重,eijeijG1G2两图中相同的边,max(E(G1),E(G2))表示取G1G2两图中边数的较大值,β由人工定义,β∈(0,1)。

公式前半部分是对图结构G1G2中节点的相似度的度量,G1G2最大公共子图的节点数越多,且与G1,G2自身的节点数越接近,则G1,G2节点的相似度就越大,取值越接近于1;后半部分是对图结构G1,G2的边及权重的度量,G1,G2相同边的权重越接近,即min(wij,wij)/max(wij,wij)的值越接近于1。将所有相同边的个数求和便得到最大公共子图边的个数,其与G1,G2边的个数比值体现了G1,G2边的相似度。二者的线性组合代表了用图结构表示的两个文本间的相似程度。

选煤厂浮选车间于2011年10月16日进行了设备单机试运转,自检合格后,立即进行了联合试运转、带料试运转。试运转过程中整个浮选系统运行稳定,实现了一次试机成功。随后,进行了浮选车间试生产,单班试运转完成后即改成三班运转。

2.4 文本聚类过程

文本聚类实验可以进一步地检验基于最大公共子图的文本相似度的实际效果。文本聚类是将一个文档集合分成若干聚类簇的过程,每个聚类簇的成员之间拥有较大的相似性,而不同聚类簇之间的成员则具有较低的相似性。对于给定的文本集合D={d1,d2,…,dn},聚类算法将每对文本(di,dj)之间的文本相似度作为输入,通过特定聚类算法进行处理,最后将聚类结果输出。

本文采用谱聚类算法进行文本聚类处理,相比于其他传统聚类方法,谱聚类具有明显的优势,它能够对非凸分布的样本空间进行聚类,在实际问题的处理中取得了较好的效果,而且执行起来比较容易。算法实现过程:

因此,一个图结构就是由节点、连接节点的边和表示边的权重组成的图。将图结构对应到文本表示中,就是将提取的文本特征项表示成图结构中的节点,特征项间的邻接及位置关系表示成图结构中的边[7]

输入:文本相似矩阵和聚类数目k

输出:文本聚类结果

Step1 构造无向加权图的邻接矩阵A,计算得到拉普拉斯矩阵L

而个体发展作为工具性的一面是指当每个人都获得充分且合法的满足之后,自动的,则表明一切人都已经获得自由而全面的发展。现实中,如果过分强调工具性的一面,即过分强调个体对集体的奉献,则必然只突出了共性、而忽视了个性,就是本末倒置、倒果为因了。

Step2 计算矩阵L的前k个特征值和特征向量,构造特征向量空间;

Step3 使用k-means算法对特征向量空间聚类;

文本图结构的建立过程:

对照组:阿托伐他汀钙胶囊,20 mg/d,1次/d,口服,连用8周。试验组:瑞舒伐他汀钙片,10 mg/d,1次/d,口服。两组患者均连续接受8周药物治疗,并在第4、8周时分别检测血脂水平。

3 实验及结果分析

为了验证SC-MCS算法的有效性及稳定性,本文分别进行了SC-MCS算法与传统基于VSM谱聚类算法的横向对比实验以及在不同文本长度环境下的纵向对比实验。

3.1 实验数据集

本实验选用的是搜狗实验室提供的中文文本分类语料库Sogou-C,该语料库来源于Sohu新闻网保存的大量手工整理和分类的新闻语料,数据一共分为10个类别,如表1所示。

 

1 实验数据集分布统计详情

  

类别名称类别代码文本平均字数文档数量汽车C0711618000财经C0812058000ITC109278000健康C1311218000体育C147208000旅游C169568000教育C2015238000招聘C2217088000文化C2334868000军事C2412058000

文本字数差别的大小会对最大公共子图的计算产生较大影响,为了保证实验的稳定性,本课题选择数据集当中文本字数差别较小的8个类别进行实验,即筛除了招聘类和文化类,每个类别随机选择200篇文本,总共1600篇文本进行实验。

3.2 评价指标

由于本文是对已知类别的文本内容进行聚类,实验采用准确率(Precision)和召回率(Recall)两个外部评价指标对实验结果进行测评,其中准确率考察聚类的精确度,而召回率考察聚类的完整性。

准确率和召回率的数学定义:

 
 

其中,n(i,j)表示在聚类结果j中包含预定义类别i的文本个数;nj表示聚类j中文本的个数;ni表示预定义类别i中文本的个数。

算法整体的准确率和召回率定义为各个类别的准确率和召回率的加权平均值,数学定义:

 
 

其中,k表示文本聚类总个数;N表示实验数据集中文本总个数;ni表示预定义类别i中文本的个数。

3.3 实验结果

为了验证文本提出基于最大公共子图的谱聚类算法(SC-MCS)的有效性,本文与传统的基于空间向量的谱聚类算法(VSM)进行了对比实验,表2是两种聚类算法的实验结果对比。

 

2 算法的准确率和召回率对比 %

  

文本类别VSM算法准确率召回率SC-MCS算法准确率召回率汽车84.372.885.173.2财经68.461.967.557.8IT74.580.375.777.2健康78.969.780.271.4体育70.374.571.572.3旅游66.468.466.267.5教育64.286.168.475.3军事77.165.878.669.8平均值73.0172.4374.1570.56

从表2可以看出,相对于传统的VSM算法,SC-MCS算法在准确率和召回率两方面均有一定的提升,实验结果验证了本文所提出的SC-MCS算法的有效性,体现出了基于图结构的文本表示更好的效果。能够出现这样的结果,主要是因为SC-MCS聚类算法利用图结构考虑到了文本上下文之间的语义关系,而VSM聚类算法则是将不同特征词作为相互独立的向量来处理的,忽略了它们之间潜在的语义内涵,所以SC-MCS聚类算法能够在同样的测试样本下取得更好的实验效果。

同时,为了验证算法的稳定性,本文采取了不同长度的文本进行了纵向的对比实验,来观测随着文本长度的改变算法的效果会发生如何变化,图4是不同文本长度下算法平均准确率和平均召回率的对比。

  

图4 不同文本长度下准确率与召回率的对比

从上图可以看出,随着文本长度的增加,算法的平均准确率和召回率起初有一定幅度的增长,而随着文本长度的持续增加,算法的平均准确率和召回率出现了大幅度的降低,造成这种结果的主要原因在于:当文本长度过长时,文本之间的最大公共子图很难准确获取,进而导致无法体现文本之间的相似性。因此,我们可以针对不同聚类环境来选取合适文本长度,以确保基于最大公共子图的文本聚类算法可以取得较好的效果。

4 结语

本文提出了一种基于最大公共子图的文本聚类算法,利用文本的图结构表示来反映不同特征词之间的语义内涵,同时通过计算文本间的最大公共子图来表示文本相似度,相比于传统的基于空间向量的聚类算法取得了较好的聚类效果。

同时,本方法还存在待改进的地方。文本的共现单元选取长度可以考虑进行适当的增加,但这也会为最大公共子图的计算带来一定困难。下一步工作可以考虑引入特征扩展的方法来对算法进行改进。

参考文献

[1]VONLUXBURG U. A tutorial on spectral clustering[J]. Statistics and computing, 2007, 17(4): 395-416.

[2]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the Acm, 1975, 18(11):613-620.

[3]SCHENKER A, LAST M, BUNKE H, et al. Comparison of distance measures for graph-based clustering of documents[C]// Iapr International Conference on Graph Based Representations in Pattern Recognition. York, UK: Springer-Verlag, 2003:202-213.

[4]BUNKE H, FOGGIA P, GUIDOBALDI C, et al. A Comparison of Algorithms for Maximum Common Subgraph on Randomly Connected Graphs[C]// Joint Iapr International Workshop on Structural, Syntactic, and Statistical Pattern Recognition. Italy: Springer-Verlag, 2002:123-132.

[5]SHI J, MALIK J. Normalized Cuts and ImageSegmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(8):888-905.

[6]蔡晓妍,戴冠中,杨黎斌. 谱聚类算法综述[J]. 计算机科学, 2008, 35(7):14-18.

[7]周昭涛,卜东波, 程学旗. 文本的图表示初探[J]. 中文信息学报, 2005, 19(2):36-43.

[8]刘巧凤. 基于图结构的中文文本聚类方法研究[D]. 大连:大连理工大学, 2009.

 
冯仁群山,陈笑蓉
《贵州大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号