更全的杂志信息网

基于句法结构分析的中文文本聚类方法研究∗

更新时间:2009-03-28

1 引言

文本聚类分析方法是文本挖掘、信息发现的重要手段,该分析方法可以从海量的文本数据里挖掘出隐含的、有潜在价值的数据信息[1],文本聚类技术是目前数据挖掘研究的热点之一。虽然文本聚类技术的研究成果很多,但是大多基于传统的聚类思想。本文提出一种新的文本聚类方法,将句法结构分析方法[2]应用到文本聚类技术中,具体是利用本文的句法结构分析方法,对文本信息进行降维处理,降低文本复杂度,再引入2d-距离概念[3],对传统的K-means聚类方法进行改进,解决传统K-means算法初始聚类中心选择随机性和聚类结果容易陷入局部最优问题。需要说明的是,本文研究的文本都是中文文本,包括长文本和短文本。

本文在实验中对设计的方法与其他几种聚类方法进行了比较,其中包括传统的K-means文本聚类方法[4]、单纯改进的 K-means文本聚类方法[5]。结果证明,本文提出的聚类算法聚类效果更优。

(1)大力推进原始创新,精准布局前沿技术。美国科技战略布局结合了全球科技发展趋势和本国经济的可持续发展需要,在前沿技术布局上做到了延续发展和推陈出新,现阶段我国的科技基础较为薄弱,“卡脖子”的关键核心技术领域发展严重受限。我国应加强基础研究前瞻布局,增加对基础研究的支持力度,并且在前沿技术的战略布局上也要有长期、明确的发展目标。

2 相关工作

文本聚类研究一直是国内外学者的研究热点。国外对文本聚类的研究比较早,将文本挖掘研究大量应用到情报学和信息检索领域,有效解决了信息检索中的查准率和查全率。如Steinberger等利用多语言主题词表EUROVOC进行跨语言主题提取和文本聚类;Tseng和Lin等借助WordNet作为外部资源提取类别词作为聚类描述符;Wei和Yang等在平行语料上通过潜在语义索引方法构建多语言索引系统,多语言文本聚类问题便转换为与具体语言无关的聚类问题等[6~8]。国外对文本聚类的研究达到了跟语言无关联的技术水平,从一开始利用各种聚类算法,如K-means算法对英文聚类,逐步发展到借助第三平台,如WordNet等知名平台来对文本进行聚类,取得了不错的效果。

国内在数据挖掘领域的研究起步晚,主要借鉴国外研究的方法,专注研究第三平台,大多应用不广泛,主要集中在文档聚类产生文档摘要研究、对搜索引擎返回的结果进行聚类、对用户感兴趣的文档进行聚类和为图书馆数据进行聚类服务等,在聚类方法中大多应用K-means算法进行研究。如李飞等采用遗传算法进行初始聚类中心优化,但是其依赖基因差异度却很难确定[5];袁方等提出的基于数据样本分布的方法只能得到一个初步结果,只具有几何学上的直观准确性[4];张健民等提出了一种基于孤立点数据过滤的改进算法,主要解决聚类容易陷入局部最优问题,但该方法不适合应用到文本聚类中,仅适合数字聚类分析[9];陈福集等提出了基于2d-距离的改进方法,该方法能有效解决K-means算法的两个缺陷,取得了不错的效果,但该方法要应用到文本聚类中,需要对改进的算法进行转换等文献研究[3]。虽然对K-means算法的改进取得了不错的研究成果,但对改进的算法如何有效应用到文本聚类的研究非常少。

步骤2 利用句法结构分析方法对文本处理,生成文本对集合;

步骤5 待每个文本都划归完毕后,重新计算聚类簇中心,这里利用图论理论,距离之和最小的点为中心点,利用这个理论,在不同聚类中逐个计算每个文本到所有文本间的距离和,取距离最小的那个文本作为新的聚类中心,依此类推,产生新的k个聚类中心;

3 方法描述

从文本集合收集开始,算法先用《哈工大停用词表》[10]和《同义词词林》[11]过滤处理文本集合;然后借助中国科学院计算研究所研发的ICTCLAS系统[12]对文本集合进行分词和词性标注,根据《同义词词林》赋予每个词编码;最后借助句法结构分析方法对文本集合进行分析,生成文本对集合,利用基于句法结构分析的相似度计算方法,对文本进行聚类分析,生成聚类簇。

3.1 文本集合预处理

算法先对所有的文本进行过滤处理,主要有以下两步:对文本进行过滤处理,将非汉字字符,包括阿拉伯数字,如字母、#、%等字符删除;再对处理后的文本依照《哈工大停用词表》进行无意义词语删除;最后对照《同义词词林》语义编码的无用行词语对文本集合进行无意义词语删除,生成标准的文本集合。

历史使命越光荣,奋斗目标越宏伟,前进道路越艰巨, 执政环境越复杂,我们越要增强忧患意识,越要从严治党,扎扎实实做好高校党建工作并切实提高党建工作效率,让我们党永远立于不败之地,为全面建成小康社会、实现社会主义现代化建设、实现中华民族伟大复兴之路而做出自己的一份贡献。

3.2 文本分词与词性标注

步骤6 重复步骤4和步骤5,直到k个聚类中心不再发生变化,则算法结束,输出聚类集合及聚类中心文本。

3.3 文本句法结构分析与距离计算

这个步骤主要借鉴于娟、尹积栋等提出的基于句法结构分析的同义词识别方法对集合对进行句法结构分析,根据文法依存原理,利用文本词性来分析文本语言单位内成分之间的依存关系,生成文本依存结构集合,再利用语义相似度计算方法计算文本间的距离,该计算方法融合了传统的语义相似度计算方法和基于句法结构分析的相似度计算方法,具体如下。

 

其中S1、S2是参与计算距离的文本,是计算出来的距离值,是传统语义距离计算方法,具体可以查看文献[13],为句子有效搭配对匹配的总权数,其项数是由两个文本中搭配对数最大的文本来决定的,本文定义权数最大的文本为主句,另一个为参照句;SCout1为句子S1的有效搭配对数,SCout2为句子S2的有效搭配对数,后半部分的计算方法具体可以查看文献[2]。

3.4 文本聚类算法

输入:文本集合{S1,S2,…,Sn},《哈工大停用词表》,《同义词词林》,聚类簇数k,孤立点a[3]

由图6可看出在进口道饱和度较低的情况下,由于车辆可穿越时距较大,设置预信号不仅没有降低延误值,反而会使延误升高;在进口道饱和度达到0.65及以上,由于车辆可穿越时距减小,此时设置预信号会使延误降低;当进口道饱和度超过0.95达到F级的时候,车辆排队长度会超过汇入点与停止线的距离,影响主线的交通运行状况,此时不建议设置预信号.

本文提出的聚类算法描述如下。

生血宁片治疗妊娠期缺铁性贫血疗效的Meta分析…………………………………………………… 陈 帆等(12):1707

本文采用比较常用的K-means算法思想对文本进行聚类,先引入句法结构分析方法对文本进行处理,再将基于句法结构分析的相似度计算方法跟传统的语义相似度计算方法相互融合计算最终的文本距离,最后利用2d-距离的K-means算法思想对文本进行聚类,输出聚类簇集合。

1.福娃贝贝是人和鲤鱼的结合体,在中国传统文化中,“鱼”和“水”的图案是繁荣与收获的象征。贝贝的头饰上运用了中国新石器时代彩陶上的鱼纹和海浪图样,鱼纹最早出现在半坡型彩陶器具上,形象为鱼体分割或重新组合,并形成几何化、抽象化。[2]鱼是原始社会的一种图腾,表达了长辈对晚辈的疼爱和祝福。通过对鱼纹图案的简化和加工,形成了一个新的对称样式,蓝色的基调,配上点点绿色,使小鲤鱼的形象灵动自然。

步骤1 先对文本集合进行预处理,再对处理后的文本进行分词和词性标注处理;

该煤炭企业风选项目初步方案是,从煤场第一部振动筛下出料口将8cm以下原煤引入风选设备中,经风选系统排矸后精煤再返回原煤场筛分第二部振动筛内,依次分级为中块(5-8cm)、小块(2-5cm)、粒煤(1-3cm)和末煤。风选系统与原煤筛分系统有机结合,原煤筛分系统可以单独运行,也可以与风选系统搭配使用。

输出:满足条件的k个簇中心及其集合,a个孤立点。

步骤3 利用文献[3]介绍的基于孤立点的K-means聚类方法中孤立点的确立步骤,先删除a个对应独立点的文本对集合,再确定初始k个聚类中心;

步骤4 利用基于句法结构分析的距离计算方法SA(S1,S2),逐个计算文本跟k个聚类中心间的距离,并将该文本归到距离最小的中心聚类簇中;

本文借鉴于娟、尹积栋等提出的基于句法结构分析的同义词识别方法[2],将句法结构分析方法融入到文本聚类分析中,这样不但降低了文本之间聚类的复杂度,还方便了改进的K-means算法在文本聚类中的应用。但本文与其他改进的K-means方法不同的是,在本文中先借助句法结构分析对文本进行处理,再利用基于句法结构分析的综合相似度计算方法计算文本间的距离。

这个步骤主要是借助ICTCLAS系统对标准的文本集合进行分词,并对词语进行词性标注。经过分析与词性标注后,过滤处理删除那些一般不参与组合成词的词素,输出结果是由构成词的词语组成的一组词串的集合对。本文设定特定词性包含有量词、叹词和助词等等。

欺诈风险交易:本模型选取某商业银行手机银行的历史安全事件积累的5000 条报文以及日常安全测试积累的5000 条报文总共一万条报文作为业务欺诈报文,作为基于异常序列的潜在业务欺诈智能预警模型中异常交易的训练集。

4 实验和结果

目前聚类结果描述评价方法主要有标引结果比较法与用户可接受性评价两种方法[15],本文主要采用标引结果比较法,利用查准率作为本文的距离结果评价指标。查准率评价公式描述如下。

p=,其中a表示人工标引为描述词,同时也是系统标引为描述词;b表示人工标引为非描述词,但系统标引为描述词。

为了验证算法的有效性和正确性,本实验用中文情感挖掘的酒店评论语料[14],该语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。为了方便起见,语料被整理成2个子集,分别是正平衡语料和负平衡语料,正负各3000篇和7000篇,需要说明的是,正表示评价好,负表示评价差。

从陀思妥耶夫斯基的所有“作品”中可以抽出二十到五十页内容,这样的文本在“长篇小说”里显得十分奇特,因为这些篇章彻底破坏并消灭了小说的所有形式,展示的是完全超自然的人、心灵和智慧: 有预见的人、明察秋毫的人、“有病的人”或者“先知”、“圣徒”或者又是“有病的人”……[2]533-534

实验方法是分别采用本文基于句法结构分析的聚类算法,单纯的基于2d-距离的聚类算法和单纯基于句法结构的传统聚类算法进行对比分析,这三个方法按顺序分别简称为A、B和C算法。其中单纯的基于2d-距离的聚类算法指文献[4]中提到的对传统K-means算法的改进方法,单纯基于句法结构的传统聚类算法指在本文的聚类算法基础上,步骤3中选取聚类中心采取随机方式。实验结果主要考虑到传统的K-means算法对初始点选取比较随机性,容易导致聚类准确率不稳定,同时孤立点的不同对聚类结果也会产生一定的影响。为了能更好分析算法聚类效果,这里设定孤立点为10,采用运算多次迭代来分析数据聚类效果。本文对上文中的四类平衡语料正负混合在一起,用算法进行聚类分析,聚类簇k设置为2,将聚类结果跟原先的正负平衡语料进行查准率分析,如图1所示。

  

图1 正负平衡语料混合聚类分析

从图1可以看出,A算法的聚类效果明显高于B和C算法的聚类效果,C算法利用句法结构分析对文本集进行处理后,再利用传统的K-means聚类算法进行聚类,因传统聚类算法容易陷入局部最优,造成B算法提前进入收敛状态,但其收敛查准率比B算法更高。因此,本文采用的基于句法结构分析的聚类分析方法融合了改进K-means算法的优点,增加了句法结构分析方法对文本集的处理,最终达到的查准率比其他算法更高。

5 结语

本文提出一种基于句法结构分析的聚类分析方法融合了改进的K-means算法的优点,引入句法结构分析方法对文本进行处理,生成句法结构对集合,再采用基于句法结构分析的相似度计算方法对文本间距离进行计算,算法不但克服了传统的K-means聚类算法聚类结果容易陷入局部最优问题,而且利用基于句法结构分析的相似度计算方法计算文本间距离比传统语义相似度方法计算文本间距离更精确,使得本文提出的方法具有较好的聚类效果。

下一步研究将继续完善本算法,增加算法的实用功能,实现聚类中心数据的文本表述,或用空间模型来展示中心数据。

参考文献

[1]杨峰,周宁.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683.YANG Feng,ZHOU Ning.Research on Text Clustering Method Based on Information Visualization Technology[J].Journal of The China Society for Scientific and Technical Information,2005,24(6):679-683.

[2]于娟,尹积栋.基于句法结构分析的同义词识别方法研究[J].现代图书情报技术,2013(9):35-40.YU Juan,YIN Jidong.Research on Synonym Recognition Method Based on Syntactic Structure Analysis[J].New Technology of Library and Information Service,2013(9):35-40.

[3]陈福集,蒋芳.基于2d-距离改进的K-means聚类算法研究[J].太原理工大学学报,2012,43(2):114-117.CHEN Fuji,JIANG fang.Research on K-means clustering algorithm based on 2d-distance improvement[J].Journal of Taiyuan University of Technology,2012,43(2):114-117.

[4]袁方.对K-MEANS聚类算法的改进[J].计算机工程与应用,2004(36):177-179.YUAN Fang.Improvement of K-MEANS Clustering Algorithm[J].Computer Engineering and Applications,2004(36):177-179.

[5]李飞.初始中心优化的K-MEANS聚类算法[J].计算机科学,2002,29(7):94-96.LI Fei.Initial-centered K-MEANS clustering algorithm[J].Computer Science,2002,29(7):94-96.

[6]Steinberger R,Hagman J,Scheer S.Using Thesauri for Automatic Indexing and for zhe Vsualization of Multilingual.Document Collections[J].IEEE Transactions on Systems,Man,and Cybernetics,2000.

[7]Lin C H,Chen H C.An Automatic Indexing and Neural Network Approach to Concept Retrieval and Classification of Multilingual Documents[J].IEEE Transactions on Systems,Man,and Cybernetics,1996,26(1):75-88.

[8]Wei C H,Yang C C,Lin C M.A Latent Semantic Indexing-based Approach to Multilingual Document Clustering[J].Decision Support Systems,2008,45(3):606-620.

[9]张建民.一种改进的K-MEANS聚类算法[J].计算机应用与软件,2004(10):233-234.ZHANG Jianmin.An Improved K-MEANS Clustering Algorithm[J].Computer Applications And Software,2004(10):233-234.

[10]哈尔滨工业大学社会计算与信息检索研究中心.哈工大停用词表[EB/OL].[2013-05-30].http://ir.hit.edu.cn/.Research Center of Social Computing and Information Retrieval,Harbin Institute of Technology.Harbin Institute of Technology[EB/OL].[2013-05-30].http://ir.hit.edu.cn/.

[11]田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版),2010,28(6):602-608.TIAN Jiule,ZHAO Wei.Word Similarity Calculation Method Based on Synonym[J].Journal of Jilin University(Information Science Edition),2010,28(6):602-608.

[12]徐君,黄亚楼,李飞.K—Means聚类中序列模式和批量模式的比较研究[J].计算机科学,2004,31(6):156-158.XU Jun,HUANG Yalou,LI Fei.A Comparative Study of Sequence Patterns and Batch Patterns in K-Means Clustering[J].Computer Science,2004,31(6):156-158.

[13]中文情感挖掘的酒店评论语料[EB/OL].http://download.csdn.net/detail/chwyh/9671159/.Chinese emotional excavation of the hotel comments corpus [EB/OL]. http://download.csdn.net/detail/chwyh/9671159/.

 
尹积栋,谢茶花,彭崧,刘红,曾昭虎
《计算机与数字工程》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号