快捷分类

基于词性和关键词的短文本相似度计算方法

更新时间：2009-03-28

0 引言

文本相似度的度量就是衡量两个文本之间语义相似的程度，是自然语言处理中一个非常重要的任务。

早期的文本相似度研究多侧重于长文本，比如文档或段落等[15]。然而近年来，由于微博平台上大量短文本的出现，对短文本相似度度量的研究吸引了很多研究者进行了深入而广泛的关注。例如pilehvar等[12]通过寻找文本的语义指纹，进而比较两个语义指纹的差异性来判断文本的相似度，Yazdani等[13]利用维基百科生成一个概念网络，通过计算由概念网络中生成的文本各自的语义概念的相似度，来计算文本间的相似度。其中 Matt等[14]人提出的 Word Mover’s Distance（WMD）算法，为求解两条微博的相似度开辟了新思路，取得了较好的效果。

WMD是一种新的计算文本文档距离方法，是将Earth Mover’s Distance(EMD)和词嵌入结合起来，用来度量两个文档之间的语义相似距离。WMD算法是在EMD算法基础上改进得来的，这个方法第一次用运输距离的思想解决了自然语言中如何对文本内容进行归类的问题。

虽然WMD算法使用EMD和词嵌入在文本内容相似度衡量方面取得了较好的效果，但是WMD算法中所有的单词用相同的权重，其忽略了关键词在语义相似度衡量上的重要性,未考虑到词性不同的单词对语义相似度衡量的影响。因此本文针对WMD不考虑单词权重问题，做出如下改进。

首先，使用TextRank[7]算法将句子中的关键词提取出来，然后使用Natural Language Toolkit(NLTK)将句子中单词标注词性，最后根据提出权重分配算法求解不同词性的单词和关键词的最优权重。使用文献[14]中的数据进行实验表明，本文所提的方法在微博情感倾向应用中，性能优于原始的WMD方法。

1.1 实验动物雄性SPF级Sprague-Dawley(SD)大鼠25只，体质量200～250 g，购自复旦大学上海医学院动物房。动物由复旦大学附属中山医院实验动物中心于SPF级条件下饲养，自由摄水、饮食。

1 WMD算法的简介

WMD算法是在对EMD(Earth Mover’s Distance)算法基础上进行改进得到的新算法。首先简单介绍EMD算法，EMD是一个找到运输问题最优解的算法，假定有P和Q两个地方，需要将货物从P运输到Q。两地之间的距离定义为dij且为恒定值；从P运输到Q的物品重量定义为fij，它是运输的惟一变量并限制fij≥0。这样得到运输完所有物品的总工作量是：

从公式⑴得到P的总容量为Wp和Q的总容量为WQ，则有，所以运输总量等于P和Q的最小值 pagenumber_ebook=71,pagenumber_book=67

其中WMD的度量是依靠Word2Vec模型生成的高质量和大规模的数据集中的word embedding工具实现的。因为自然语言是由词来组成的，所以Word2Vec是将每一个词表示成一定纬度的向量，如果这个词在第三个位置出现，那么就将第三个位置的值设为1，其余设为0，这样的话就可以对所有样本进行神经网络的训练直到收敛。收敛之后会得到权重，然后将这些权重作为每一个词的向量，需要注意的是，在Word2Vec中使用了哈夫曼树，这样的话就可以根据上下文来推测这个词的概率。

这里的C(i,j)是一个词运输到另一个词所花费的代价。

利用AntConc3.2.3的Concordance功能检索《漫》剧英语文本中的well，一共有91个(图1)，以冉永平文章中列出话语标记语特点为标准[18]，其中可做话语标记语的well共有52个。分析所选的译文分别摘自“生活·读书·新知三联书店”的《奥尼尔集》[19]和“人民文学出版社”出版的《奥尼尔文集》[11]。将含有well的毗邻对从剧本中挑选出来后，制作成平行语料库，以利于总结其翻译规律。平行语料库制作的主要软件是Olifant和梁茂成老师编写的text2tmx程序。

图1 WMD图解

首先将去除停用词的这些文字插入到Word2Vec空间里，这些文字会表示在向量空间上，称之为Word Embeeding。从图1可以看出，从文档1到文档2的距离就是将文档1所有非停用词移动到文档2中词语的最小距离的累加。

对于文档1和文档2，首先用nBOW将文档P和Q中去除停用词的单词用向量表示，并用计算该词的权重，其中ci表示词语ci在文档中出现的次数。

在Word2Vec向量空间中，语义相似的词与词之间的距离可以用欧式距离来计算，即：

2.2.3 构建多元线性回归模型血药浓度作为因变量，把所有考察因素作为自变量，采用逐步法构建多元线性回归模型，结果见表2。模型结果显示，体表面积和白蛋白水平是血药浓度的影响因素，模型检验F=16.959，P＜0.01，提示模型有效。残差图见图2。通过对标准化残差和标准化预测值绘制的散点图看出，标准化残差的散点波动范围基本保持稳定，不随标准化预测值的变化而变化，可以认为基本满足方差齐性，残差满足正态分布的条件。

现在谁都清楚，农村劳动力匮乏，农业要想实现现代化，要么是培养新型职业农民，要么就是采用先进的农业机械代替人工，把不确定因素的影响降到最低。从这些年农业规模化经营看，大家失败的原因，主要还是人员的问题。看着那些在电视镜头前，像模像样地告诉电视观众，某人一腔热血，回报社会，把老乡土地成片流转，让周边的农民转变成农业工人，真不知道他们心里委屈又要向谁诉说呢？

WMD的图解如图1所示。

在得到每一个单词到单词之间的距离之后，就可以得到整个文档P到文档Q之间的距离：

将累积cost最小化，有以下公式⑷：

subject to: pagenumber_ebook=71,pagenumber_book=67

图2 距离计算图解

从图2中可以看出，将Illinois转换为Chicago，比Japan转换为Chicago的代价小，因为在向量空间中，向量（Illinois）比向量（Japan）的距离小，因此能计算出哪两个文档之间距离较近。

WMD在实际运用中也存在一些缺点，例如在得到词向量时，WMD算法只是单纯的对所有词随机赋予一个权重，并不考虑词在句子中的重要与否，这样可能会造成对句子的分类错误。在原先的WMD算法中，若是随机赋予权重，可能会将这两句话归为意思相近的一类，但是实际却恰恰相反。本文对句子中的所有词进行重新的梳理，将不同词性的词分门别类的赋予权重，这样在使用WMD求解语义相似度的过程中可以将意思更为接近的句子归为一类，提高求解相似度的准确率。

2 基于词性的WMD算法改进

随着社交媒体的发展，每天的新文本内容有了爆炸式的增长，但是，这些文本内容与传统的文本内容（新闻，小说等）有很大区别，其主要特点是，风格随意，单词简写，文法接近于口语化表达。这些特点也大大影响了自然语言处理的效率。近年来，各类自然语言处理工具的准确率下降的事件多次被提及，例如Stanford tagger[3](针对社交文本的词性标注结果分析)准确率从97%下降到87%，词性也称为词类，是词汇在文章中最基本的语法特征，一方面，文章中许多单词，即便是同一个单词，在不同的语境中也有不同的意思；另一方面，文章中的关键词也可以对文章进行高度概括，所以，这些词性和关键词成为了语义分类的关键因素。

召回率(Recall)：分类器将样本数据正确分类为正例的个数，占整个数据集中所有正例的个数的比例。

2.1 词性的分类及方法

在词性分类中，现在有以下三种模型比较流行[4]。第一种是布朗语料库，这种模型纯粹是靠手工的方式来获得大量的语料库，然后对这些语料库取样本，并且还要靠用户来对存在的错误进行勘正。第二种是隐马尔可夫模型，在二十世纪八十年代，欧洲的研究人员通过计算单词出现的可能性来得到下一个单词的词性。第三种是动态编程的方法，1987年，Steven DeRose[5]和Ken Church[6]独立开发了动态规划算法，在很短的时间内解决同样的问题。他们的方法类似于其他领域已知的Viterbi算法。DeRose使用了一个对的表格，而Church则使用了一个三元组表格和一个估算在Brown语料库中罕见或不存在的三元值的方法（三重概率的实际测量将需要更大的语料库）。本文根据实际情况，使用了第三种模型来处理这些问题，依托Python中现有的NTLK包中POS_TAG功能，对每条用户所发的微博内容进行单独提取，例子如表1所示。

表2 对文本内容的词语进行分类

文本内容The President greets the press in Zhejiang名词President，Zhejiang形容词无动词greet副词无

正确率(Accuracy)：反应模型对整个样本数据的判定能力。即对于测试集，能将正例判定为正例，将反例判定为反例的能力。

2.2 TextRank算法简介和关键词提取

TextRank[7]算法是在PageRank[8]基础进行改进，在PageRank最初是用在搜索引擎上，用于搜索网页的算法其基本思想是投票，在对某一个网页进行排名时，首先要看有多少网页链接到这个网页，这个值称为PR值，计算PR值的公式如下：

其中，S(Vi)是网页i的中重要性（PR值）。d是阻尼系数，一般设置为0.85。In(Vi)是存在指向网页i的链接的网页集合。Out(Vj)是网页j中的链接存在的链接指向的网页的集合。|Out(Vj)|是集合中元素的个数。由于PageRank算法构成的是一个无向图，所以在PageRank算法中加入每个点的权重，就可以得到TextRank算法，其公式如下：

相比PageRank算法，TextRank算法中多了一个W作为权重值，用来表示两个节点之间的边连接有不同的重要程度。这样将文章中不同重要程度的词按照大小排列起来，得到备选关键词。

在本文中，经过实验对比，发现选取前三个关键词时效果最好，所以将前三个关键词存入文档备用。

2.3 权重算法的学习

对于2.1和2.2所提取出的关键词和词性不同的词语，将这些词语赋予新的权重，为了找到最合适的权重算法使得准确率最高，在本文中使用梯度下降算法[9]来对权重进行迭代更新。

在使用梯度算法之前，首先要对梯度进行求解，对于每一个自变量求偏导数并将其偏导数作为变量方向的坐标，梯度下降算法的公式如下：

表2实验结果显示，在采取相同的数据集中，本文改进的WMD算法较原始的WMD算法有较为明显的提升。

在油田企业的日常运营中，每天都会产生海量的信息，其中仍然具有利用、保存或借鉴价值的，被整理成档案，由专门的档案管理机构进行管理。信息化数据运行管理的原则之一，就是高效率地完成档案的收集、管理和利用等工作。例如，在档案收集方面，要利用大数据技术，将油田企业各部门产生的数据第一时间收集起来，避免出现珍贵数据丢失等问题。此外，部分档案仍然具有借鉴和利用价值，当油田企业某个部门需要这些档案时，档案管理部门还要尽快地进行档案查找，为各部门工作开展提供帮助。

h(θ)是要拟合的函数，J(θ)损失函数，θ是参数，要迭代求解的值。其中m是训练集的记录条数，i是参数的个数。

由于本文中数据量过多，对比批量梯度下降和随机梯度下降两种算法，发现采取随机梯度下降方法来对权重进行求解效果更好。因此，公式可以改写为：

其中，（xi,yi）是训练集中的一个样本。这样的好处是可以通过随机选取训练集中的样本来对权重进行求解，从而得到局部最优解，由此可得每个样本的损失函数，对θ求偏导得到对应梯度，来更新θ。

为了求得局部最优解，在对函数f(x)进行求导的时候必须先选择一个初始点并计算该点的梯度值，假定梯度的符号为∇,所以对任意函数f(x,y)的梯度为：

由于本文中使用的凸函数，所以按照梯度的负方向来更新参数。假设第n次迭代后的值为xn,可得公式：

1.3 观察指标比较两组患儿治疗前、后的肺功能指标，包括肺活量(FVC)、第一秒呼出气体容积(FEV1)、 FEV1/FVC、免疫功能指标(CD4+、CD8+、CD4+/CD8+)、血清IgE水平、细胞因子水平(IFN-γ、IL-4)及治疗效果。临床治疗效果判定标准：显效：治疗1周患儿咳痰、气促、呼吸困难症状消失，肺部哮鸣音消失，3个月内无复发；有效：治疗1周患儿咳痰、气促、呼吸困难等症状明显减轻，肺部哮鸣音减轻，3个月内无复发；无效：治疗1周患儿咳痰、气促、呼吸困难等症状无明显好转，甚至加重，肺部哮鸣音无改变甚至恶化。治疗有效率=(显效+有效)例数/总例数×100%。

其中，α为学习率，这个值表示每次迭代变化的幅度。这个值需要人为设定，如果设定的学习率过大或过小，对于求得的局部最优解会产生较大的影响。

在随机梯度下降中，假设有两个点a(n)和a(n+1)，从a(n)出发，到a(n+1)截止，学习率为α，可得：

其中， pagenumber_ebook=73,pagenumber_book=69

在研究中发现,白三烯(LT)是由花生四烯酸通过5-脂氧合酶的途径代谢而产生的一种强效的生物炎症介质,主要包括肥大细胞、嗜酸粒细胞、嗜碱粒细胞和巨噬细胞,并且根据其结构情况,可分为含硫基团的半光氨酰白三烯和非含含硫基团的白三烯。而孟鲁司特,作为白三烯的受体抗拮剂,在临床研究中,对其功效还存在看法不一的现状,现对其展开综述。

因此，参数推导过程如下：

参数θ的迭代方程可表示为：

算法：权重最优化算法

输入：变量X，训练样本G

输出：变量Y，变量θ

初始化：随机设置α

1.For i=1 to N Do:

2.改变θ，更新

3.For i=1 to M Do:

4. pagenumber_ebook=73,pagenumber_book=69

3 实验及其结果分析

3.1 实验过程

为验证上述改进算法的有效性，本文通过使用文献[14]中的Twitter数据作为原始数据集D1。对所得的数据进行分类，提取各种所需的单词。

为了对比实验结果，本文在改进算法和未改进算法中使用了同一测试集，将D1的前百分之八十作为训练集，后百分之二十作为测试集。

2.2 两组女性血清中EMAb抗体水平检测结果比较在EMAb-T检测水平方面，不孕不育组总阳性率(31.5%)与健康对照组总阳性率(5.4%)相比明显提高(P<0.05)；其中不孕不育组女性血清IgG-EMAb、IgM- EMAb的总阳性率均明显高于健康对照组(均P<0.05)。见表2。

3.2 实验结果分析

本章实验中，为了对实验结果进行衡量，选取正确率、精确率、召回率和F1值作为性能评价指标。我们将获得转发的目标微博记为正例，反之则记为反例。

如表1所示，首先对于给定的文本内容进行分割，然后使用NTLK工具对其去除停用词的所有单词进行词性标准，从而得到给定文本内容中名词、形容、动词和副词的分类。

子曰：“学而不思则罔，思而不学则殆。”一堂课就怕学生只学习不思考，或者只凭空思考而不学习。在瑜伽课程的导入部分，可以设计问题，提出疑问，让学生带着问题学习，提供相互讨论和思考问题的平台，培养他们勤动脑的习惯，在学习的过程中消除这些疑问，在练习的过程中弄清楚、搞明白。

精确率(Precision)：分类器将样本数据正确分类为正例的个数，占全部分类为正例的个数的比例。

选择莫文蔚为百雀羚品牌代言人可谓煞费苦心。翻遍这位长腿性感个性美女明星的品牌代言史，在化妆品上，莫文蔚代只是在2005代言过宝洁顶级护肤品牌SK-II，这是一个很难得的发现。相对于张曼玉、刘嘉玲、林志玲等红星代言过数不胜数的护肤品牌，莫文蔚更加具有开发价值。百雀羚启用莫文蔚代言“草本护肤”，对百雀羚品牌定位及顾客群的定位起到核心关键作用：莫文蔚的“国际范”与百雀羚“东方美”的巧妙的契合，迅速吸引消费者、媒体眼球，最大限度吸引了80、90后年轻消费群的关注与购买。随着莫文蔚代言的百雀羚广告热播，沉睡在消费者心中已久的经典百雀羚似乎一夜之间“复活”了，外界对百雀羚的关注度迅速提升。

第一个步骤由小组内部展示与交流，针对本学习小组的共同探讨研究活动，结合所整合积累的各种信息资源进行分析、整理、讨论，在本组中获得知识与经验的共识。

F1值：对精确率和召回率综合考虑得到的另一个评价指标即：

对这两种方法进行比较，结果如表2所示。

表2 两种算法的实验结果比较

WMD算法改进的WMD F1值27.5%28.1%27.8%31.4%31.2%31.2%准确率召回率

传统的WMD对于词语权重这方面并没有较大的涉及，只是随机的分配给词语权重，并未考虑到在句子中，不同词性的词语会对句子的意思产生较大的影响。

图3 词性不同的词和形容之间存在时正确率

所有权重均设置时，正确率如图4所示。

图4 所有权重都存在时正确率

1.1 调查对象 2017年7-9月，采用分层随机抽样法，首先列出广州市11个市辖区各自管辖的所有医疗机构，分别随机抽取2所三级医疗机构和8所三级以下医疗机构，最终共抽取113所医疗机构（部分区多抽取了1到2所），依照实际情况从每个医疗机构调查5～10名医务人员，计划调查医务人员759人。

通过计算各指标的成本价值量及成本价值量可知，并不是所有已开通航线都具有不可替代的优势，主要原因，即表3优劣势.

对上述实验结果进行总结，得出以下结论。

只加词性不同的词和只加形容之间的正确率，如图3所示。

在传统的WMD算法中并未考虑到否定词对于整体句子情感走向的影响，只是单纯的将否定词与其他词语简单的赋予权重。

综上所述，本文提出的改进WMD的算法可以较好地提高对于相似文本的分类，这对于自然语言处理和舆情控制等方面有较好的帮助。

4 结束语

自然语言处理中的语言分类是一个较为热门的领域，在当今社会，这个领域可以较好地帮助人们节省大量时间，例如处理垃圾邮件，对流行程度进行预测等。本文对于传统的WMD算法进行分析和整理，对其中不足之处提出改进，但本文所改进的算法仍有一些不足之处，例如在进行赋予词权重时并未对算法进行优化，所需要的时间太长。下一步工作将继续优化赋值操作，进一步减小算法耗时，提升算法运行的效率。

参考文献(References):

[1]Yang C,Wen J.Text Categorization Based on a Similarity Approach[J].InternationalJournalofComputational Intelligence Systems,2007.29(6):1-1

[2]Kusner M J,Sun Y,Kolkin N I,et al.From word embeddings to document distances[C]//International ConferenceonInternationalConferenceonMachine Learning.JMLR.org,2015:957-966

[3]Gupta V,Joshi N,Mathur I.POS tagger for Urdu using Stochastic approaches[C]//International Conference on Information and Communication Technology for Competitive Strategies.ACM,2016:56

[4]张一哲.汉语词类划分与词性标注方法的研究[D].南京师范大学硕士学位论文,2011.

[5]Aly,G.(n.d.).Tagging text with Stanford POS Tagger in Java Applications|Galal Aly.Retrieved from http://www.galalaly.me/index.php/2011/05/tagging-text-withstanford-pos-tagger-in-java-applications/

[6]Surhone L M,Tennoe M T,Henssonow S F.Steven DeRose[J].2010.

[7]Dredze M,Jansen A,Coppersmith G,et al.NLP on Spoken Documents without ASR[C]//Conference on EmpiricalMethodsin NaturalLanguage Processing,EMNLP 2010,9-11 October 2010,Mit Stata Center,Massachusetts,Usa,A MeetingofSigdat,A Special Interest Group of the ACL.DBLP,2010:460-470

[8]Haveliwala T H.Topic-sensitive PageRank:a contextsensitiverankingalgorithm forWebsearch[M].IEEE Educational Activities Department,2003.

[9]Mihalcea R,Tarau P.TextRank:Bringing Order into Texts[C]// Conference on EmpiricalMethods in Natural LanguageProcessing,EMNLP 2004,A Meetingof Sigdat,A Special Interest Group of the Acl,Held in Conjunction with ACL 2004,25-26 July 2004,Barcelona,Spain.DBLP,2004:404-411

[10]Burges C,Shaked T,Renshaw E,et al.Learning to rank using gradientdescent[C]//InternationalConference on Machine Learning.ACM,2005:89-96

[11]Mohler M,Mihalcea R.Text-to-text semantic similarity for automatic short answer grading[C]//Conference ofthe European Chapterofthe Association for Computational Linguistics.Association for Computational Linguistics,2009:567-575

[12]Pilehvar M T,Jurgens D,Navigli R.Align,Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity[C]//Meeting of the Association for Computational Linguistics,2013.

[13]Yazdani M,Popescu-Belis A.Computing text semantic relatedness using the contents and links of a hypertext encyclopedia:extended abstract[J].Artificial Intelligence,2013.194(194):176-202

[14]Kusner M J,Sun Y,Kolkin N I,et al.From word embeddings to document distances[C]//International Conference on International Conference on Machine Learning.JMLR.org,2015:957-966

[15]Chua T S,Leong M K,Myaeng S H,et al.Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval[J].1992,105(4):1227-1230

作者

赵明月

出处

《计算机时代》 2018年第05期

上一篇：基于视频图像的煤垛自燃检测算法研究

下一篇：加大人工智能技术在中小学教育中应用的思考

《计算机时代》2018年第05期文献

基于RX23T的四旋翼飞行器控制系统设计＊作者：曹继华，梁伟，刘杰，姚慧雄，向晓燕

基于标签分布学习森林的电价概率预测作者：王翔

基于SIFT的飞行器图像自动拼接处理系统的研究与实现作者：王欣

基于大数据的个性化学习研究文献分析＊作者：周显春，谭瑞梅

基于运动姿态描述子特征和词袋模型的行为识别作者：姚旭

物联网与大数据相结合的电梯调度系统优化方案作者：李达铭，樊锐，史海鸥，高姗，田红丽

基于DataSnap技术的大学城商圈安卓APP的设计与实现＊作者：吴顺利，张旭，孙伟，史国滨

响应式Web设计在移动终端的实践探索作者：郭飞军

基于Hadoop的地表温度反演系统的设计与实现＊作者：袁帅，郑逢斌

Java软件保护方案的设计和实现作者：龚少麟

基于VB的单隐含层BP神经网络编程及验证作者：陈鹏

基于Android平台的留学生应用系统的设计与实现＊作者：吴国娟，何明昌，王鹏，吴汉魏，廖海玲

医院集成支付平台的研究＊作者：陈中秋

基于云平台新风监测系统设计作者：高圣伟，李旭，李龙女，刘晓明

基于WSN的农产品冷链物流监测平台设计与实现＊作者：王义勇

PowerPoint软件在机械制图教学中的巧用＊作者：吴浩，于友林

基于视频图像的煤垛自燃检测算法研究作者：吴南，朱向东，高雅昆，李海滨

基于词性和关键词的短文本相似度计算方法作者：赵明月

加大人工智能技术在中小学教育中应用的思考作者：李想

STEM教育与中学信息技术课堂融合的教学设计＊作者：贾亚南，王林，王安全

杂志信息网