更全的杂志信息网

基于余弦距离选取初始簇中心的文本聚类研究

更新时间:2009-03-28

1 引言

随着大数据时代的不断发展,文本信息大量产生且富含丰富价值,如何合理利用这些文本信息成为人们面临的机遇与挑战。文本聚类作为文本数据挖掘的重要手段之一,是将大量杂乱无序的文章,通过相似度判断进行合理的归类,使主题、内容相似的文章分在同一类别中,而不相似的文章被划分到不同的类别[1]。作为一种无监督的机器学习方法,文本聚类由于不需要训练过程,以及不需要预先对文本手动标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效组织、摘要和导航的重要手段,为越来越多的研究人员所关注[2]

在文本聚类方法中,基于余弦相似度的K-means算法[4]由于其算法简单、收敛速度快、能有效处理大数据集等特点,仍然是使用最广泛的文本聚类算法,特别是它在向量空间模型中的拓展——超球K-means算法(Spherical K-Means,SKM)[5],已被证明是非常有效的文本聚类算法。2016年,Tunali等人在SKM的基础上,提出了一种更适用于文本聚类的软划分聚类方法——多簇超球K-means算法(Multi-Cluster Spherical K-Means,MCSKM)[6],通过在聚类过程中将每个样本点分配到多个簇中使聚类更快地逼近最优解。本文在K-means算法及上述拓展算法的基础上,讨论如下几个问题:

首先,K-means算法从出现到现在已有50多年,科研工作者从优化问题[7]、K值的选取[9]、离群点检测[10]等多方面对其进行研究改进,但其中众多优异的研究改进成果是建立在欧氏距离的基础上,而对基于余弦相似度的K-means算法(后面简称为余弦K-means算法),用夹角的余弦值衡量相似度,改进算法却不一定适用,如经典改进算法Fuzzy ISODATA,K-means++[11]等等。同时,由于余弦相似度是衡量文本间相似度的度量标准,用角度表达距离且计算复杂,所以专门面向余弦K-means的改进算法至关重要但设计存在一定难度。为了避免重新设计改进算法,能否将基于欧氏距离的K-means算法(后面简称欧氏K-means算法)改进成果通过变换运用到余弦K-means中,成为值得考虑关注的问题。

其次,欧氏距离反映数据间的间隔长度,而余弦相似度反映数据间的相似程度,余弦K-means每轮迭代中的簇中心计算方法是否与欧氏K-means计算方法一致,该如何计算。文献[12]中关注到这个问题,提出不能按照原K-means算法中通过计算簇内所有样本点均值的方法进行计算,作者采用符合簇内余弦距离和最短的簇内点作为簇中心,但簇内点与真实簇中心还有一定差距。之后,胡洋瑞等人在此基础上也提出在余弦K-means中使用欧氏距离计算簇中心造成距离度量标准不一致,并给出了簇内中心点应满足的目标函数[13],但并未解出簇内中心点具体的计算方式。由此,能否通过理论推导得到余弦K-means的簇内中心点计算公式是亟待解决的问题。

最后,随机选取初始点极易导致聚类结果陷入局部最优解、聚类迭代次数增加以及聚类结果不稳定等问题,而良好的初始点选取方法可减少上述问题,并使聚类精度及效率得到提高。初始点选取一直是K-means算法研究的热点问题,但大量改进算法都是建立在欧氏距离的基础上,而对余弦K-means算法却并不适用。为了减少随机初始点对余弦K-means聚类结果的影响,许多研究者采用多次实验结果取均值的方式来减少算法的不稳定性[14];徐森等人提出使用集成学习的方式对多次实验结果进行有机结合,以期望更大程度地减少随机初始点的影响[15]。但这些算法因需要重复多次试验而极大地降低了聚类效率,且并未直接解决余弦K-means的初始点选择问题。2015年,Duwairi等人采用对区域进行1/k均等划分的方式,进行初始点选取[16],但该选取方法并未结合目标数据集的点分布特性,仅适用于点均匀分布的数据集,而对于大部分数据集效果差强人意。2016年,翟东海等人通过定义余弦距离利用最大距离法来进行初始点选取,但文章未给出余弦距离的合理解释且算法对孤立点较敏感[12]。因此,在余弦K-means中进行初始点选取一直是困扰文本聚类的难点问题。

本文针对上述三个问题,提出了相对应的解决方案。首先,针对于部分欧氏K-means改进成果不适用于余弦K-means的问题,为了避免在余弦K-means上完全重新设计改进算法,本文探讨了余弦相似度与欧氏距离的关系,得到标准向量前提下二者的转化公式,并在此基础上定义了一种与欧氏距离意义相近关系紧密的余弦距离,通过余弦距离的性质,使原有欧氏K-means改进算法可通过余弦距离迁移到余弦K-means算法中。然后,利用余弦相似度与欧氏距离的转化公式,解出余弦K-means簇内中心点的目标函数,证明余弦K-means算法中簇中心计算方法与原欧氏K-means的计算方法一致。最后,针对MCSKM随机初始点选取的问题,通过余弦距离以及本文第三节结论,将欧氏K-means的初始点改进算法K-means++思想迁移到余弦K-means算法中,得到适用于余弦K-means的初始点选取方法,结合软划分文本聚类算法形成新的文本聚类算法MCSKM++。通过实验验证,该算法具有迭代次数少,运行时间短,聚类精度高等优点。

2 背景知识

2.1 文本的向量表示

文本是复杂的非结构化数据,而传统的聚类算法所处理的对象都是数值型数据。为了对文本进行聚类,首先需要将非结构化的文本数据转化为易于处理的数值向量。向量空间模型(Vector Space Model,VSM)[17]是将文本数据进行向量化表示的经典方法,可以将文档集合D中的每篇文档di转化成为一个n维向量xi=(xi1,xi2,…,xin),其中n表示整个文档集合的所有文档中不同的词语的数量,xij表示词语wj在文档di中的权值。

贯彻“以学生为中心”的教学理念,实施行动导向教学方法,学生以小组形式,在教师的引导下通过项目的完成,达到专业知识学习和专业技能训练的目的。

 

其中,fij表示词语wj在文档di中出现的频数,lb(1+N/fj)表示词语wj的逆文档词频,N是整个文档集合中的文档数量,fj为整个文档集合中包含词语wj的文档数量。

通过文本的向量表示,非结构化的文档集合D={d1,d2,…,dn}转化成为传统聚类算法可处理的向量集合X={x1,x1,…,xn}。然而这些文本向量具有高维、稀疏、维度间有相关性等特点[19],导致需要对聚类算法做相应的改进以适用于文本聚类。

2.2 相似性度量

对于欧氏空间中的任意两个向量x=(x1,x2,…,xn)和y=(y1,y2,…,yn),其欧氏距离定义为:

 

由于文本数据内容复杂,一篇文档可能与多个类别相关。针对SKM算法进行硬聚类划分的缺点,2016年,Tunali等人提出了一种基于软划分的SKM改进算法——多簇超球K-means算法(Multi-Cluster Spherical K-means,MCSKM)。MCSKM算法是通过在SKM算法每轮迭代中,文档向量在满足限制条件时同时分配给多个簇,使聚类结果更快地向全局最优解逼近。首先,作者给出了两个限制条件:

 

对于高维的数值型数据,文献[20]证明欧氏距离作为K-means的相似性度量具有更好的适应性,因此K-means算法普遍采用欧氏距离。而对于文本向量,文献[21]提出余弦相似度相比于欧氏距离具有更好的效果。因为欧氏距离用向量间间隔长度的大小衡量距离,注重维度数值上差异的绝对值,而余弦相似度利用夹角的余弦值即方向来刻画相似度,更注重维度间相对层面的差异。在文本的相似度判断中,单词是否同时出现即相同维度上是否同时非零是判断其相似度的重要指标,而对于单词出现的次数即相同维度上数值的差异,其重要程度相对减少。因此,向量夹角的余弦值更能刻画文本向量间的相似程度,文本聚类通常采用余弦相似度作为相似度度量。并且,正因为余弦相似度的特性,得到下面适于文本聚类的超球K-means聚类算法。

2.3 超球K-means聚类算法

超球K-means聚类算法(Spherical K-means,SKM)算法[5]是专门针对于文本聚类的K-means改进算法。其基本思想是在聚类前对文本向量进行标准化,再对标准化后的向量做K-means聚类。这样做的原因是长文本相比于短文本拥有更多的特征词,标准化后可减少长文本的贡献率,使相似度更侧重于方向上的倾斜,而非数值上的变化[6]。并且,对于欧氏空间中的任意两个向量x=(x1,x2,…,xn)和 y=(y1,y2,…,yn)及标准化向量 =即欧氏空间中的任意两个向量,标准化前后的余弦相似度不变。公式(4)是SKM算法可行的关键因素,但欧氏距离不具有上述性质。另外,通过该算法,每个文本向量的长度为1且分布在半径为1的超球面上,在计算向量间余弦相似度时,公式(3)可简化为计算效率。

 

2.4 MCSKM算法

而它们的余弦相似度(Cosine)定义为两个向量夹角的余弦:

(1)根据数据集设定参数——最大可分配簇(Max Assignable Clusters,MAC),使每个样本点同时分配给的簇的数量不大于MAC。MAC建议值为≤MAC≤,K表示簇的个数。

步骤1从X中任意选择K个文档向量作为初始聚类中心。

通过这两个限制条件对文本向量进行软划分。具体算法如下:

算法1 MCSKM[6]

输入:文档向量集合X,簇个数K,最大可分配簇MAC,相似度比值界限SRL

输出:聚类结果

建设项目选址考虑的因素比较多,要结合“优地优用、地尽其用、节约集约用地”方针,既要考虑经济、社会、生态效益,也要考虑对不同类型建设项目起主导作用的影响因素[8]。在项目选址决策时既需要定性考虑多规合一的空间符合性,也要定量分析项目选址质量的其它影响因子,能针对不同用地性质的项目实现规划相符空间布局最优的智能化选址。首先构建项目选址模型因子库,选取多规合一符合性因子和选址优化相关因子,进一步细化项目选址的各大类相关因子形成一套可计算、可操作、可比较的因子体系,并以此作为规划选址的科学依据。多规合一符合性因子见表1,项目选址优化涉及常见因子见表2。

(2)根据数据集设定参数——相似度比值界限(Similarity Ratio Limit,SRL),对向量 xi,当某个簇中的簇中心)时,则xi允许被分配到簇oj中。SRL的建议值为0.1≤SRL≤0.2。

对于养活了世界1/3人口的农作物来说,这是一个里程碑事件,与9 000年前人类首次种植小麦的那一天一样,具有划时代意义。

步骤2对于X中每个文档向量xi

4.1.1 以护理项目为评价对象 护理项目是质量评价的基本单元,传统的护理质量评价主要将护理项目作为评价对象,如特护、1级护理质量、护理技术操作合格率、健康教育的实施效果等。

(1)计算xi和K个聚类中心之间的余弦相似度。

(2)将余弦相似度值从最高到最低排序。

(3)将文档xi分配给具有最高相似度的簇obest

(4)在满足限制条件MAC和SRL的情况下,将xi按顺序分配给相似度高的合格簇。

“节”即不同音乐材料或不同乐汇、句型的组合或连接的次数。一次即一节型过腔,两次即两节型过腔,三次及以上即为多节型过腔。

步骤3根据分配给各簇的文档重新计算K个簇中心。

步骤4重复步骤2和3,直到算法收敛。

3 欧氏距离、余弦相似度与余弦距离

为了使基于欧氏距离的改进算法思想可以迁移到基于余弦K-means算法中,本章将首先探索余弦相似度与欧氏距离的关系,在此基础上给出一种余弦距离,通过余弦距离的优良性质,使改进算法思想得以运用到余弦K-means算法中。因SKM算法中先将向量标准化后聚类,且不影响聚类结果,因此下面的讨论在标准化向量的前提下进行。表1中列出了本文中用到的重要变量及符号定义。

 

表1 变量及符号定义

  

X xiN d(x,y)cos(x,y)MAC SRL K dc(x,y)cj||cjoj文档集合D转化后的向量集合文档di转化后的向量文档集合D中的文档数量向量x和y的欧氏距离向量x和y的余弦相似度最大可分配簇相似度比值界限簇的个数向量x和y的余弦距离第j簇第 j簇cj中样本点的个数簇cj的中心点

定理1对于欧氏空间中的任意两个标准化向量x=(x1,x2,…,xn)和 y=(y1,y2,…,yn),对欧氏距离d(x,y)和余弦相似度cos(x,y),有

 

证明 由标准化向量定义,有

 

结合公式(3)可得

 

由公式(2)知

 

结合式(6)可推出cos(x,y)=1-d2(x,y)。 证毕。

定理1使我们对余弦相似度有了更清晰的认识。在标准向量的前提下,余弦相似度与欧氏距离并非两种完全不同的距离度量,反而具有直接函数关系。这样的关系,使余弦相似度从夹角的余弦值即方向来刻画相似度,转变为可以用向量间间隔长度大小的平方进行度量,从注重维度间相对层面的差异转变为注重维度数值上的差异。同时,这样的转变也使原来困扰余弦K-means的部分问题得到解决,如本文第四章对簇内中心点进行计算。为使基于欧氏距离的改进算法可以迁移到余弦K-means算法中,给出一种基于余弦相似度的距离定义方式。

雪萤把腿收回来,说:“我也爱你……”她见一杭并不抬头,一边继续拿脚勾提包,一边说:“假如有一天,我们不在一起了,也要像在一起时一样……”“一定会的,不,我们要永远在一起!”一杭说完,在雪萤的脸上吻着,鸡啄米似的。雪萤闪闪烁烁地应着他,不时拿舌头缠住他的舌头,一会儿又躲着他的嘴唇。一杭越发兴致高昂。雪萤在左摇右摆中,将提包移到了屁股下面。她平静了一下呼吸,小心地,小心地,把右手往后撤。不能让一杭有一丁点察觉。她左手把一杭的头搂到胸前,头不停地蹭着一杭的头。

 

经验证,定义的余弦距离符合距离的非负性,对称性,三角不等式的三个距离基本条件,且该距离与两点间相似度呈负相关,因此可作为衡量距离的指标。另外,由于文本向量各维度都取值为0到1,则dc(x,y)取值范围为[0,1]。

定义1给出的余弦距离,是完全在余弦相似度的基础上定义的距离概念,其最大程度地表达了余弦相似度提供的信息,在聚类过程中,其效果与余弦相似度是完全一致的。由定理1与定义1可知:

推论1欧氏距离d(x,y),余弦相似度cos(x,y),余弦距离dc(x,y)三者的关系为:

 

三者的转化关系成为将改进算法迁移的重要公式。余弦相似度与欧氏距离有直接的函数关系,使两者之间有了紧密联系,其次,余弦距离的提出,弥补了余弦K-means中缺少距离的缺点,也作为桥梁,使之前基于欧氏距离的K-means改进方法,可通过余弦距离迁移到基于余弦相似度的K-means算法中。因为余弦距离是完全由余弦相似度决定的距离指标,与余弦相似度在聚类过程中效果一致,其次通过公式(11),得知余弦距离与欧氏距离一样,也是用向量间间隔长度的大小来刻画距离,并且是欧氏距离的函数,与欧氏距离正相关,因此余弦距离可表达与欧氏距离几乎一致的距离意义。基于此可以将基于欧氏距离的改进方案迁移到余弦K-means算法中,第五章初始点的选取即是对此理论的运用。

4 中心点计算

通过上章对余弦距离与余弦相似度的深入分析,本章利用定理1推导出簇中心的计算方式。K-means每轮迭代中,簇中心需重新计算以期望簇内距离和F(oj)=小。在欧氏距离下,第 j簇cj的簇中心为:

项目管理会计核算是我国当前正在积极推广的重要管理方式。但是,由于我国在这方面起步较晚,在应用过程中也暴露出了许多问题。主要体现在以下几个方面。

为了确定一个单词在某个文档中的取值,最常用的计算方法是采用词频逆文档频率(TF-IDF)[18]。对于词语wj,利用TF-IDF方法计算它在文档di中的权值xij的公式为:

 

|cj|表示簇cj中样本点的个数。易证明,样本点oj是使簇内距离达到最小的点。而对于基于余弦相似度的K-means算法,利用余弦相似度刻画样本点间相似度,簇内中心点该如何计算,与上式是否保持一致,本章将进行簇中心的推导。

做目标函数F(oj)等于簇内余弦相似度和,其极大值点oj即为中心点。

 

但此式是非线性函数,对此式的极大值求解是比较困难的,所以之前问题卡在这里无法解决。但应用上一章提出的余弦相似度转化,问题可迎刃而解。由定理1目标函数转化为:

MCSKM[6]算法利用软划分的方式提高了文本聚类的效果,更符合文本的多样特性。但其算法的初始点采用随机选取方式,极有可能导致结果陷入局部最优解,增加迭代次数等问题。为了减少随机初始点对算法的影响,原作者采用10次实验取均值的方式来减少算法的不稳定性,但这样导致算法需消耗10倍的计算时间。而对于MCSKM的初始点有效选取问题,由于算法中两点间距离采用余弦相似度,导致现有众多优异的初始点选取方法无法适用,本章运用第三章提出的余弦距离得到适合MCSKM的初始点选取方法。

 

求上式的极大值点,简化为求下面式子的极小值点:

 

依次令原式对oj1,oj2,oj3,…,ojn求偏导,可得

 

令上式等于0,则

 

则极值点为:

 

从计算结果可知,余弦K-means及其拓展算法的簇内中心点仍是簇内各坐标的和的均值,与欧氏K-means的簇内中心点的计算方法相同。此处使余弦相似度的K-means算法的簇中心计算方式得到证明,可利用此公式计算簇内中心点。

5 MCSKM++

2.3.2 虚实相映。注重虚实的对比,植物与建筑或者山墙交相辉映,使得空间并不那么压抑;园林中水面与建筑或者山石的搭配,水流消失在花木丛中,延伸园林的无限空间[1]。

初始点选取一直是K-means算法研究的热点问题,其本质是在第一轮选点时提前对类别进行初步预测,使选点更接近于最终结果,继而大量减少聚类中的迭代与计算成本。许多初始点选取方案基于以下事实:距离大的样本点分到同一个簇的可能性小;相反,距离小的样本点分到同一个簇的可能性大[12]。因此,选取K个相互之间距离较远的点作为初始簇中心能取得较好效果。而对于文本聚类所需的基于余弦相似度的K-means算法,缺少距离的概念,余弦相似度表达方向的差异,如何利用方向对初始点进行选择成为新的问题。即使借用相似度小的点作为初始点的思路,选择余弦值最小的两点xa,xb作为初始点的前两个点,但不易选取离xa,xb尽可能都远的第三个中心点xc。因为对于欧氏距离,第三点xc普遍采用分别到xa,xb的距离和或积的最大值点,但余弦值的和或积却没有意义,不能表达其相距前两点较远。所以,基于余弦相似度的K-means算法初始中心点较难选取,而余弦距离的引入可将欧氏K-means中良好的初始点选取方法进行迁移运用。

余弦距离的提出,使余弦K-means算法拥有距离的度量,且余弦距离与欧氏距离一样,利用两点间间隔长度刻画距离,是向量数值上的差异,而不再是方向,所以可以将欧氏距离的距离远即可当初始点的思想迁移应用于余弦K-means算法,即依次寻找余弦距离相隔最远的K个点。而为了避免孤立点对选取方法的影响,采用K-means++中利用概率的方式进行选取,需要将原有算法中的欧氏距离d(xi,obest)替换为余弦距离dc(xi,obest)=点xi被选为下一个距离中心的概率为离最近的簇中心点。上式中分子表示该点到最近簇中心的余弦距离的平方,而分母表示属于该簇的所有点到聚类中心的余弦距离的平方和。通过此概率可利用轮盘法依次选出K个初始点。初始点选取完毕后,在满足限制条件MAC和SRL的情况下对样本点进行软划分,得到最终的文本聚类结果,算法具体流程如算法2所示:

算法2 MCSKM++

输入:文档向量集合X,簇个数K,最大可分配簇MAC,相似度比值界限SRL

输出:聚类结果

步骤1从文档向量集合X中随机选取一个样本点作为第一个初始聚类中心。

优酷土豆,爱奇艺等一直难以盈利正是缺乏降低成本的经营优势,从而在竞争中处于不利位置。而乐视在同其他视频网站一样主营业务成本居高不下的同时还开展了多元化战略,促进多元化发展、终端业务费用及相关宣传人力成本及流量费用进一步加大无疑对于乐视的财务成本雪上加霜,多元化布局效果适得其反,管理销售费用的增幅已经远超营业收入增幅。

步骤2计算每个样本点xi与当前已有聚类中心之间的最短距离,即与最近的一个聚类中心obest的余弦距离dc(xi,obest)。

步骤3计算各样本点xi被选为下一个聚类中心的概率依据此概率用轮盘法选出下一个初始聚类中心。

步骤4重复步骤2和3,直到选择出共K个初始聚类中心。

定义1对于欧氏空间中的任意两个向量x=(x1,x2,…,xn)和 y=(y1,y2,…,yn),其余弦距离 dc(x,y)定义为:

步骤5对于X中每个文档向量xi

(1)计算xi和K个聚类中心之间的余弦相似度。

此时的公共空间则象征性地存在于贵族行为和个人行为上,已不再像是古希腊时期所呈现的个人自我价值实现的意义场所。“在那里它们只有私人的重要性,从而真正的公共领域荡然无存”[6]。公共空间只是领土主权的权利表达,不再能把国家和人民相互联结起来。教堂和其附属的广场充当了人们的公共空间,教会占据了人生活的一切,控制着人的活动,这使孕育体育运动的土壤逐渐消逝。人自身受到挤压,人的权利、地位、历史都在此失去色彩。庆幸的是,随着商品贸易和信息的全球化,人逐渐走向自我觉醒和解放,人的公民意识开始建立在公众的共识上,开始营造平等、自由、公开的公共交往,这为塑造更人性的公共空间提供了前提条件。

(2)将余弦相似度值从最高到最低排序。

(3)将文档xi分配给具有最高相似度的簇obest

(4)在满足限制条件MAC和SRL的情况下,将xi按顺序分配给相似度高的合格簇。

步骤6根据分配给各簇的文档重新计算K个簇中心。

步骤7重复步骤5和6,直到算法收敛。

随着这三颤,三股冰寒内力侵入虎口,沿经脉直冲脉门。若是被这三股内力冲开脉门,顺势攻入心脉,后果不堪设想。

该算法的前4步利用概率的方式进行初始点选取,其本质是提前对数据集的类簇进行初步预测,使其在每个类簇中各选取一个点作为初始聚类中心。该初步预测的合理性体现在如下两方面。一是大概率选取到密集区域内的点,减少孤立点对初始点选取的影响。该方法并非直接选取余弦距离相距最远的点,而是采用点间距离所占全部距离和的概率选取,这样在初始点选取过程中,虽然孤立点距离远被选取概率大,但该区域内点的数量少,而密集区域内,虽单个点的选中概率不及孤立点高,但由于该区域点数量众多,由此选中该区域的概率为区域内点的概率和,其值远高于孤立点,所以可以保证选中的点大概率是密集区域的点,而密集区域其实就是类簇的雏形。二是选取的点相互之间距离远,不在相同类簇中。因为利用两点间余弦距离确定概率,导致相距越远的类簇其概率和越高,则选取距离相隔较远的类簇内的点的概率更高,避免了选取的多个初始点在同一类簇内。基于上述两点,该方法既能约束选取密集区域内的点,又可要求选取的点之间相距较远,则得到的初始点较大程度地反映了类簇的分布情况。该初始点选取方法的优势在于通过概率的方式选取初始点,使得到的初始点分布在相距较远的密集区域中,即在每个类簇中各选取一个初始聚类中心,避免算法陷入局部最优解,同时节省了后面迭代过程中的计算与时间成本。相比于随机选取[6]、区域均等划分[16]等选取方式,该方法根据数据集的本身特点选取初始点;相比于传统的基于最大距离的选取方法[12],避免了孤立点对初始点的选取;而相比于利用密度的初始点方法[22],该方法无需单独确定密度界限参数,自动根据数据集特点选取初始点。该算法的后三步利用软聚类的方式将点进行多重划分,可进一步减少迭代次数,且更适用于文本的多属性特性。

6 实验设计与结果

6.1 数据集

本文采用文本挖掘领域经典的公开数据集20newsgroup(20NG)新闻组数据集[23]。该数据集共包含18 846篇文章,20个新闻组,每组大约有1 000篇文章,其中每篇文章的平均长度为137.85个单词。

(3)加强水利工程建设的安全管理。水利工程项目是一项大工程,参与的人员也很多,施工程序与其他工程相比也是十分复杂的,因此,水利工程自身的特殊性也就决定了安全管理的重要性,项目管理中重要的一部分就是工程施工过程中的安全生产管理和监督检查,在加强安全管理的过程中要落实安全生产责任制度到个人身上,定期开展安全隐患的排查工作,通过培训加强施工人员的安全责任意识,加大安全宣传教育和培训的力度,通过这些安全管理的措施对水利工程的项目管理奠定基础,确保安全施工以及工程完工后的质量。

解决中小学思想政治课教师政治素质存在问题要有的放矢,对症下药。要在“疏”与“导”两方面下功夫。所谓“疏”,就是要关心思想政治课教师,为他们排忧解难,为他们教书育人创造宽松的环境;所谓“导”,就是要重视思想政治课和思想政治课教师,就是要加强对思想政治课教师的教育培训管理引导。具体对策如下。

6.2 软硬件平台

实验采用的硬件环境配置为Intel core i7处理器,16 GB内存,64位Ubuntu 16.04 LTS操作系统。软件采用python软件进行编程,利用numpy工具包进行科学计算,sklearn工具包做部分数据处理工作。

6.3 评价指标

6.3.1 标准化互信息

标准化互信息(Normalized Mutual Information,NMI)[24]是衡量聚类结果的有效度量方式,用来衡量两个数据分布的吻合程度,NMI的值越大即表示聚类结果与原类别标签的相似度越高。对实验预测结果A与真实数据分布B,其计算公式为:

 

其中,p(a)、p(b)分别表示A、B的概率分布,p(a,b)表示 A和B的联合概率分布,H(A),H(B)为 A、B的熵,其计算公式为:

 

6.3.2 兰德系数

兰德系数(Rand Index,RI)利用实验预测结果A与真实数据分布B中元素对数的分布情况进行评价,其计算公式如下:

 

其中x表示在A与B中都是同类别的元素对数,y表示在A与B中都是不同类别的元素对数,z表示数据集中可以组成的总元素对数。RI取值范围为[0,1],值越大则聚类结果与真实情况越吻合。

6.4 实验设计及结果分析

为验证改进算法的有效性,对原始算法MCSKM,改进算法MCSKM++及文献[12]算法进行编程实现,作用于20NG数据集向量表示后不同维度的数据集合,从NMI、RI、迭代次数、时间四个方面对三种算法的实验结果进行比较分析。

首先从sklearn工具包内调用20 NG数据集,并对数据集进行预处理操作,包括分词、去特殊符号、去停用词、词根化等,因为文本属于非结构化数据且内容复杂,预处理对文本聚类至关重要。然后进行文本建模,将文本用向量空间模型进行向量表示,单词权重采用TF-IDF,原数据集转化为为向量集合X。在文本建模过程中,采用全部特征时,向量维度约18万维,利用词语的文档频数进行特征提取,频数的界限取值分别为200~1 000次、150~1 000次、100~1 000次、50~1 000次,形成4个数据集合X1,X2,X3,X4,其对应的特征提取数为1 507,2 058,3 150,5 758。这样做的原因是利用不同的特征提取数,得到向量维度不同的数据集,相当于对多个不同的数据集进行聚类,可以更好地检验改进算法性能。

其次,在python环境下实现MCSKM算法、CMCSKM++算法、文献[12]算法,其中MCSKM中的参数设置,采用原文[5]针对20NG数据集的推荐设置MAC=7,SRL=0.1。为了保证实验的公平性,文献[12]的初始点选取方法也建立在MCSKM算法的基础上进行实验。利用以上三个算法分别对集合X1,X2,X3,X4进行聚类。最后,记录实验结果,并从NMI、RI、迭代次数、时间四个方面对三种方法的聚类效果进行分析比较,结果由表2所列。

根据表2的实验结果,画出四种指标的对比折线图,如图1所示。

通过表2可以看出,针对四种不同维度的数据集X1,X2,X3,X4,本文的改进算法MCSKM++相比于原始算法MCSKM以及文献[12]算法,在计算总时间减少约20%的情况下,聚类效果不仅没有降低,反而提高7%左右。根据图1的折线对比图对实验结果进行纵向比较可以清晰地看出,面对不同维度的向量,本文改进算法的NMI、RI值均高于其他两个算法(NMI与RI指标反映算法的聚类精度),而迭代次数、时间两个指标都低于同类算法(时间与迭代次数显示算法效率),则该算法在精度与效率两方面都得到较大提升。出现该实验结果是因为原始算法MCSKM采用随机选取初始点的方法,导致算法需花费大量迭代次数逐渐向最优解逼近,且因此可能使结果陷入局部最优解,影响聚类效果。而本文改进算法的初始点选取方法是在选点时利用概率的方式提前对类别进行了初步预测,使选点更接近于最终聚类结果,继而大量减少聚类的迭代与计算成本。虽然在选点阶段相较于随机选取会多花费一定时间,但由于高维数据每轮迭代所需计算量大,则减少迭代次数可大量减少聚类计算时间,从实验结果可看出该算法用时更短。且初始点的有效选取使算法更大程度地避免陷入局部最优解的情况,也使聚类的精度得到提高。文献[12]算法提出的初始点选取方案虽具有一定效果,但由于其选取距离相距最远的数据点,导致算法对孤立点较为敏感,影响聚类效果,且存在距离未给出合理解释等问题,效果不如本文算法。

 

表2 三种算法聚类结果比较

  

?

  

图1 四种评价指标折线对比图

7 结束语

本文针对部分欧氏K-means改进成果不适用于余弦K-means算法的问题,通过探讨余弦相似度与欧氏距离的关系,得到标准向量前提下二者的转化公式,并由此定义一种余弦距离,使原有欧氏K-means改进算法可由余弦距离迁移到余弦K-means算法中。利用转化公式证明类内中心点的计算方法后,通过迁移得到余弦K-means算法的初始点选取方法,并结合文本软聚类算法MCSKM得到新的文本聚类算法MCSKM++算法,新算法具有迭代次数少、聚类时间短、聚类精度高等优点。在未来的工作中,将继续研究余弦相似度下聚类算法的变化,提出更多适用于文本聚类的余弦K-means改进算法,包括研究更有效的初始点选取方案、对高维数据的有效降维方案等,使文本聚类精度和效率得到进一步的提高。

参考文献

[1]Aggarwal C C,Zhai C X.A survey of text clustering algorithms[M]//Mining text data.US:Springer,2012:77-128.

[2]Yin J,Wang J.A text clustering algorithm using an online clustering scheme for initialization[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2016:1995-2004.

[3]Xu J,Xu B,Wang P,et al.Self-taught convolutional neural networks for short text clustering[J].Neural Networks,2017:22-31.

[4]Jain A K.Data clustering:50 years beyond K-means[J].Pattern Recognition Letters,2010,31(8):651-666.

[5]Dhillon I S,Modha D S.Concept decompositions for large sparse text data using clustering[J].Machine Learning,2001,42(1):143-175.

[6]Tunali V,Bilgin T,Camurcu A.An improved clustering algorithm for text mining:multi-cluster spherical K-means[J].International Arab Journal of Information Technology(IAJIT),2016,13(1).

[7]Carvalho V O.Combining K-Means and K-Harmonic with fish school search algorithm for data clustering task on graphics processing units[J].Applied Soft Computing,2016,41(C):290-304.

[8]Makarychev K,Makarychev Y,Sviridenko M,et al.A bicriteria approximation algorithm for k-means[J].Computer Science,2015.

[9]白树仁,陈龙.自适应K值的粒子群聚类算法[J].计算机工程与应用,2017,53(16):116-120.

[10]韩崇,袁颖珊,梅焘,等.基于K-means的数据流离群点检测算法[J].计算机工程与应用,2017,53(3):58-63.

[11]Arthur D,Vassilvitskii S.K-means++:the advantages of careful seeding[C]//Eighteenth ACM-Siam Symposium on Discrete Algorithms.Society for Industrial and Applied Mathematics,2007:1027-1035.

[12]翟东海,鱼江,高飞,等.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715.

[13]胡洋瑞,陈兴蜀,王俊峰,等.基于流量行为特征的异常流量检测[J].信息网络安全,2016(11):45-51.

[14]谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211.

[15]徐森,卢志茂,顾国昌.使用谱聚类算法解决文本聚类集成问题[J].通信学报,2010,31(6):58-66.

[16]Duwairi R,Abu-rahmeh M.A novel approach for initializing the spherical K-means clustering algorithm[J].Simulation Modelling Practice&Theory,2015,54:49-63.

[17]Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

[18]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing& Management,1988,24(5):513-523.

[19]王骏,王士同,邓赵红.特征加权距离与软子空间学习相结合的文本聚类新方法[J].计算机学报,2012,35(8):1655-1665.

[20]Kanungo T,Mount D M,Netanyahu N S,et al.An efficient k-means clustering algorithm:analysis and implementation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):881-892.

[21]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61.

[22]Celebi M E,Kingravi H A,Vela P A.A comparative study of efficient initialization methods for the k-means clustering algorithm[J].Expert Systems with Applications,2013,40(1):200-210.

[23]20NG,20 News Groups Dataset,U.C.I.Machine Learning Repository[DB/OL].[2017-09-10].http://archive.ics.uci.edu/ml/databases/20newsgroups/.

[24]Strehl A,Ghosh J.Cluster ensembles:a knowledge reuse framework for combining partitionings[J].Journal of Machine Learning Research,2003,3(3):583-617.

 
王彬宇,刘文芬,胡学先,魏江宏
《计算机工程与应用》2018年第10期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号