快捷分类

基于改进文本特征的文本相似度研究

更新时间：2009-03-28

随着数据信息化的到来，通过网络进行数据存储和分享已成为当今社会的趋势，越来越多的文档、书籍、科技文献等脱离纸质存储转为网络数据存储大规模数据资源的涌现，使得信息检索、文本分类、聚类等课题受到广泛关注，上述课题的主流研究方法都需要文本关键词的支持，然而，人工抽取关键词需要消耗大量的人力和时间，如何利用计算机高效准确地进行关键词抽取[1-2]以减少人力消耗成为自然语言处理领域的一个重要研究课题。

目前人们通常采用向量空间模型来描述文本向量,但如果直接用分词算法和词频统计方法得到的特征项来表示文本向量中的各个维,那么向量的维度将是非常的大。因此，在保证原文含义的前提下，找出最具有代表文章含义的前提下，找出最具有代表文章含义的文本特性，从而对文本向量做到进一步的净化处理是当前应该解决的问题。为解决此问题,最有效的办法就是通过特征选择来降维。从而简化计算，提高文本处理的速度和效率。通常根据某个特征评估函数计算各个特征的评分值，按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词。

1 问题描述及分析

文本内容描述维度丰富，不同的人对其理解不一致，为使得文本内容机器可以统一理解和识别，通常使用特征表达来实现，它通过向量化的一组词或一组主题来体现，从而达到文本内容中心思想的概括性描述。

本文通过探索新的文本特征表示方法，来实现文本内容的准确表述；使得改进的文本特征表示方法不仅局限于向量化的方式；最终测试方式通过标准的测试集来完成(通过比较两篇内容描述基本一致的文章的相似度来判断文本特征的表达一致性和优良性)。

1.3.2 临床疗效判断标准输卵管通畅率评价标准：通畅：注液5～7 mL后即刻观察到输卵管伞部有染液排除，输卵管未有局部膨大显效；不畅：注液5～10 mL后略感轻度阻力，输卵管有膨大等情况，且伞部有染液滴出；阻塞：推液时受到阻力较大，且难以注入液体，伞部未见液体滴出。

1.1 问题分析

[6] 刘相滨, 邹北骥, 王胜春. 一种新的完全欧氏距离变换算法[J]. 计算机工程与应用, 2005(13):44-45.

图5为毫米波雷达接收模块的组成，其中低噪放大器管芯采用XL1000芯片，该芯片具有噪声低、增益高的特点；混频器选用Hittite公司的HMC329管芯，尺寸仅为0.85 mm×0.55 mm，是一款高性能宽带双平衡混频管芯。

本问题主要集中在文关键词即文本特征的选取上，如何在关键词选取上实现更精确、更具有代表性、更科学化，这将是本模型改进后能否成功的关键性因素。本文在提取关键词应用较广泛的TF-IDF的基础上，分析其方法的不足，从而进行提取方法的改进方案。

1.2 模型的假设

1)在计算词组逆频率IDF时，假设查阅文本总数为两文本中词组总数M，其中含有该词组的文本数量为该词组在两篇文本中出现的总次数，如式(1)所示：

(1)

式中n1为词组在文本1中出现的次数，n2为词组在文本2中出现的次数。

2)由于分词器的影响，会造成类似“如果”、“那么”、“怎么办”的语气助词、连词等词组不能去掉，进而在提取特征词时会有一定干扰。因此，本文假设：对上述语气助词、连词等词组，将其视为普通词组，若其出现在文本关键词中，则依旧当其文本关键词。

体育赛事电视节目的性质和保护模式选择............................................................................................刘劭君 08.24

2 定义与基础算法

2.1 计算两个数组的余弦值

定义两个数组cell_A={cell_A1,cell_A2,…cell_An}、cell_B={cell_B1,cell_B2,…cell_Bm}，其对应的数量行向量为A=[A1A2…An]、B=[B1B2…Bm]，另外有两个分别于A、B同列的零向量a=[0,0,…，0](1×n)、b=[0,0,…，0](1×m)。比较cell_Ai(i=1，2…，n)与cell_Bj(j=1，2，…，m)，若相同，则sum_1=Ai+Bj+sum_1，同时令a(1,i)=1b(1,j)=1；若不同，则sum_1=0+sum_1，同时令a(1,i)=0、b(1,j)=0，对数量行向量处理完成后，保存sum_1。然后，对向量a、b内元素进行判断，若a(1,i)=0，则sum_1=Ai+sum_1，b(1,j)=0，sum_1=Bi+sum_1；若a(1,i)=1，则sum_1=0+sum_1，b(1,j)=1，则sum_1=0+sum_1。对a、b所有元素判断完成后，保存sum_1。

吸收剂含量不仅对涂层的孔隙率、结合强度等具有重要的影响，而且对涂层的吸波效果具有显著的影响。不同的吸收剂具有不同的吸波性能，选择合适的吸收剂含量对制备吸波效果好的涂层而言至关重要。通常，最小反射损耗越小(由于是负值，因此实际上是其绝对值越大)，有效吸收带宽(文中如无特别说明，指反射损耗小于-10 dB的频率范围)越大，涂层的吸波性能就越好。目前已有大量研究关注了吸收剂含量对涂层吸波性能的影响。

任何一种艺术创造都离不开想象。有充分想象，在心中和脑海里产生艺术形象，通过歌唱和表演将作品完美的表达出来。将自己投入到角色当中，唱出真情实感，才能塑造出栩栩如生的人物来。《情寒新吟》中说：“戏无真，情难假。若无真情，演假戏难；即有真情，换作假情又难。”这句话通俗一点讲就是我们所说的假戏真情，就是将自己情感投入，达到忘我的状态。在声乐演唱中不但要忘我，还要有我。一个好的演唱者，由对歌曲的分析——理解——构思——联想，而在自己的脑海中显现出一幅幅画面。

将文本的数量行向量A、B进行如式(2)运算：

(2)

则定义计算两数组余弦值如式(3)所示：

(3)

2.2 计算两个数组的余弦值欧氏距离[6]

对上述定义的数组比较cell_Ai(i=1.2…n)与cell_Bj(j=1.2…m)。若相同，则sum_E=(Ai-Bj)2+sum_E，同时令a(1,i)=1、b(1,j)=1；若不同，则sum_E=0+sum_E，同时令a(1,i)=0、b(1,j)=0。对数量行向量处理完成后，保存sum_E。然后，对向量a、b内元素进行判断。若a(1,i)=0，则若a(1,i)=1，则sum_E=0+sum_E，b(1,j)=1，则sum_E=0+sum_E，对a、b所有元素判断完成后，保存sum_E。

则两数组欧氏距离如式(4)所示：

(4)

3 模型建立与求解

3.1 原理模型

将上述的计算结果跟据词组的TF-IDF值从大到小依次排列，且分别保存到temp_1和temp_2中，其结果见图4和图6。其中，第一列表示文本中出现的词组；第二列表示词组出现次数n；第三列表示词组的词频TF；第四列表示词组逆频率IDF；第五列表示词组的TF-IDF值。

经过之前的语义分析，每个名词的分类范畴和可能的概念都被找出。然后需要根据发布的消息来确定最合适的词义，这个过程叫做词义消歧[19]。在经过词义消歧以后的结果存储在标注模块的数据库里，下面就对得到的结果进行隐私敏感度分析并执行隐私访问控制。

案例11：讲“数学归纳法“时，可由下例实验导入：按顺序摆放一排立起来的长方块（如军旗粒），每两个长方块的距离一定，确保前一块倒下，能推倒后一块。动手推倒第一块，让学生观察结果。然后，由第二块，第三块，……开始，多次重复上述实验。实验条件是什么？实验结论是什么？以十分贴切、形象的诠释，使学生兴趣盎然，对“数学归纳法”的理解入木三分。

采用中国科学院计算技术研究所的ICTCLAS分词器对文档进行分词，两词组间用“”间隔(本文将新闻对于同件事的不同报道给出的1-1.xml和1-2.xml为例子，下文所有均以此为基础)，本文采取MATLAB程序运算，将其处理后结果保存在cell数组Tf_1和Tf_2中。

3.1.2 统计各词组次数

在经过上一步处理后得到两文本的词组cell数组Tf_1和Tf_2，根据这两个数组，构建一个的新数组，通过一定运算得到以下几个量度：①两文本中出现的词组总个数M；②各文本含有词组总数N1，N2；③每个词组在各个文本中出现次数ni(i=1，2，…)。

计算Tf数组的行数，得到M。在得到M后，笔者构建了一个A=[M×M]的零矩阵。比较在Tf数组中TF{i,1}(i=1，2，3，…，M)词组和Tf{j,1}(j=1，2，3，…，M)词组是否相同。若相同，则在A(i,j)处填上“1”；若不同，则在A(i,j)处填上“0”。根据定义，可以计算出各个词组在各文本中的出现次数n，将行向量FA和FA保存在vector_1和vector_2中。通过上述运算得到两个数组运用二值表所示的矩阵，见图1、图2。

图1 未清零二值矩阵DFig.1 Open zero binary matrix D

图2 相同列清零后的二值矩阵D1Fig.2 Same column cleared binary matrix D1

3.1.3 计算各词组词频TF、逆频率[7-8]IDF和TF-IDF

根据得到的文本词组参数，计算出各词组词频TF、逆频率IDF和TF-IDF如式(5)、式(6)、式(7)所示。

(5)

(6)

TF_IDF=TF×IDF

(7)

3.1.1 对原始文本进行分词

本文关键词的粗选取依据词组TF-IDF值的大小，选取TF-IDF值最大的6个词组作为文本的关键词，再以其TF-IDF值为向量元素构建向量空间模型(VSM：Vector Space Model)。其中两文本选取的关键词的TF-IDF值的分布见图7。

图3 txt_1.1中词组次数和TF-IDF条形图Fig.3 Txt_1.1 phrase number and TF-IDF bar chart

图4 文本txt_1.1中各词组综合信息Fig.4 Text txt_1.1 comprehensive information of each phrase

图5 txt_1.2中词组次数和TF-IDF条形图Fig.5 Txt_1.2 phrase number and TF-IDF bar chart

图6 文本txt_1.2中各词组综合信息Fig.6 Text txt_1.2 comprehensive information of each phrase

3.1.4 选取文本关键词(特征项)，计算余弦相似度和欧氏距离

第二种方法性能优于第一种，因此选择第二种方法计算来设计控制器，该方法分为两个步骤，首先确定电流参数，然后确定电压参数。

教师可以开展形式多样的课余活动与社会实践活动。比如，在班级内召开品德交流会，德育学习经验交流会，班级之间举办心理健康知识竞赛、演讲、辩论比赛等活动，让学生切实体验到德育学习的生动活泼与妙趣横生。也可以带领学生走出课堂，走进丰富多彩的社会生活，体验社会生活的苦辣酸甜，积累更多的生活经验。教师通过开展“我是小小消防员”“城市环保护卫队”“参观工业园”等社会实践活动，引导学生进行角色体验与岗位锻炼，帮助学生树立道德意识，在特定的角色中实现道德体验与完善。这需要教师、学校与家长的多方面努力，在常规教学中融合，创设德育教育环境。

计算出两关键词组向量的余弦值cos θ，即两文本的余弦相似度，应用计算文本余弦相似度[9-10]，两文本关键词组向量余弦值cos θ越大，则两文本的余弦相似度就越大，两文本就越不相关；反之，则相反。然后计算出两关键词组向量的欧氏距离Oρ，运用两文本关键词欧氏距离大小表征关键词之间相似性，欧式距离越大，则相似性越小，两文本之间越不相关；反之，则相反。

3.2 模型改进：原点距R选取关键词

本文模型改进主要是在关键词的选取上引用新的决定条件，即词组的原点距。引入原点距R，通过对R数值大小比较，选取文本关键词，该改进方法在需要计算文本各词组次数n、词频TF、逆频率IDF和原点距R。其中原点距计算如式(8)所示：

(8)

其中， K-词组频率相关性参数，其值大小与文本总词数N有关；在本文中K=100。H-词组逆频率相关性参数，其值大小与词组权重有关；本文中令H=1。

1.要不断和员工强调成本管控的范围不仅仅是产品的生产成本，而应该包括从采购、生产、销售等多项经济环节的成本控制。甚至也应由物质产品成本扩展到非物质产品成本，如人力资源成本、产权成本、环境成本等多方面成本。

根据式(8)将各词组的原点距R计算出。以TXT_1.1和TXT_1.2两文本为列，通过计算得到的原点距见图8～图9。

图7 两文本关键词TF-IDF条形图Fig.7 Two text key words TF-IDF bar chart

图8 文本TXT_1.1词组对应原点距RFig.8 Text TXT_1.1 Phrase correspondsto origin distance R

通过对量文本的所有词组的排列见图10和图11，通过比较选取出各文本中词组原点距R值最大的的6个词组，作为文本的关键词组，并且对两文本选取的关键词的R值比较见图12，以该选取的关键词对应的R值通过公式就可计算出其两文本的余弦相似度cos θ和欧氏距离Oρ。

图9 文本TXT_1.2词组对应原点距RFig.9 Text TXT_1.2 Phrase corresponds to origin distance R

图10 文本TXT_1.1词组排列图Fig.10 Text TXT_1.1 Phrase arrangement

图11 文本TXT_1.2词组排列Fig.11 Text TXT_1.2 Phrase arrangement

图12 两文本关键词R值比较图Fig.12 Two text keywords R value comparison chart

3.3 数据分析

运用上述的两种文本关键词提取办法对报道的两个文本进行处理，找出它们的关键词，以及计算出两文本间的余弦相似度和欧氏距离。其结果见表1。

表1 文本组参数Table 1 Text group parameters

关键词提取方法文本关键词余弦相似度欧氏距离TF⁃IDFTXT＿11‘飞行员’ ‘客机’ ‘调查’ ‘年龄’ ‘起飞’ ‘机场’TXT＿12‘＇客机’ ‘起飞’ ‘如果’ ‘飞机’ ‘机场’ ‘飞行’0463602705原点距RTXT＿11‘飞行’ ‘客机’ ‘起飞’ ‘年龄’ ‘调查’ ‘西伯利亚城市’TXT＿12‘客机’ ‘起飞’ ‘如果’ ‘飞机’ ‘机场’ ‘飞行’044522131822

对表格1分析，可得到如下结论：①运用TF-IDF方法和原点距R方法提取的关键词几乎相同，但原点距R方法对关键词的重要性排序更为精确；②在余弦相似度中，运用原点距[13]R方法所计算出的结果更为精确，通过对关键词的对比，更能找到两文本的相关性；③在欧式距离中，运用原点距R方法所计算出的结果较大，这对于划分相似性标准时更为方便，同一程度的相似性所对应的欧式距离范围更大。

4 模型的评价

4.1 模型的优点

1)识别准确性高，具有较强的可扩展性，算法迭代次数少，收敛效率高，具有较强的准确性。

2)由于新的量化参量R引入，拓展了研究纬度，提升了模型的容错性。

3)增加两个特殊的参数K-词组频率相关性参数和H-词组逆频率相关性参数，突出了关键词语对文本内容的贡献，弥补了TF-IDF 的缺陷，使得特征词组更加准确地描述文本特征。

4.2 模型的缺点

对新增加两个特殊参数K,H值的确定，较为麻烦，会增加程序复杂程度和运算量。

4.3 模型的评价

由实验的结果可见，本文提出的特征词组选取改进算法能够较好地解决TF-IDF在表示文本时无法突出关键词语贡献的问题。关键词选取原点距R方案它是基于词组的次数n、词频TF和逆频率IDF，通过参数H和K使其能够综合词语次数、词语关系、词语频率、文档频率等信息，突出了关键词对文本内容的贡献，弥补了关键词向量冗余、对文本属性无关等缺陷，使得提取的关键词能更加准确地描述文本特征。同时，也在一定程度上影响了程序算法的效率。

5 结论

[1] 蒋效宇. 基于关键词抽取的自动文摘算法[J]. 计算机工程, 2012(3):183-186.

参考文献：

本文针对类别关键词改进了TF-DF算法，首先对文本进行关键词提取，然后通过计算其改进后的TF-DF值形成特征向量，在此基础上引入新的量化参量R，拓展了研究纬度，提升了模型的容错性；同时增加两个特殊的参数K-词组频率相关性参数和H-词组逆频率相关性参数，突出了关键词语对文本内容的贡献，弥补了TF-IDF 的缺陷，使得特征词组更加准确地描述文本特征，使得分类准确率得到了一定的改善。本文通过提取类别关键词，减少了特征向量维数，使得分类的时间效率有了一定的提高，可以减少约3%，因此基本达到了最初的设计目的。

从图2看出，黄土高原植被覆盖呈东南地区高西北地区低的变化趋势。植被覆盖较高的地区为燕山-太行山山地落叶阔叶林生态区(Ⅰ-10)、汾渭盆地农业生态区(Ⅰ-11)和秦巴山地落叶与常绿阔叶林生态区(Ⅰ-15)，该区多为暖温带以及温带湿润气候，处于迎风坡，多地形雨，降水充沛，水热充足；植被覆盖度较低的地区有内蒙古高原中东部典型草原生态区(Ⅱ-1)、内蒙古高原中部-陇中荒漠草原生态区(Ⅱ-2)和内蒙古中部草原化荒漠生态区(Ⅱ-3)，这些地区由于多为草原及高山草甸或荒漠景观为主，生态环境脆弱，加之地理位置为内陆深处，远离海洋，湿润水汽难以到达，降水和气温成为影响其植被覆盖度的关键性因素。

[3] 王子慕. 一种利用TF-IDF方法结合词汇语义信息的文本相似度量方法研究[D]. 吉林大学, 2015.

[4] 宋章浩. 中文文本分类中TF-IDF方法的改进与应用[J]. 科技展望, 2014(22):259.

[2] 罗准辰. 关键词抽取的研究与实现[D]. 长沙：国防科学技术大学, 2008.

[5] 刘克强. 2009共享版ICTCLAS的分析与使用[J]. 科教文汇(上旬刊), 2009(8):271-280.

用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中可以采用字、词或词组作为表示文本的特征项。词和词组是组成文档的基本元素，并且在不同内容的文档中，各词条出现频率有一定的规律性，不同的特征词条可区分不同内容的文本。因此可以抽取一些特征词条构成特征向量，用这个特征向量来表示文本。

[7] Zhang L, Yang Z, Qu Z, et al. Modeling and vibration decoupling control of multi-axial shaking table[C]//The 4th International Conference on Machinery,Materials and Computing Technology, 2015.

[8] Liu H, Sun X, Gao Y, et al. Magnetostrictive and kinematic model considering the dynamic hysteresis and energy loss for GMA[J]. Chinese Journal of Mechanical Engineering:1.

[9] 刘冰, 李文书. 基于余弦相似度的指纹匹配算法的室内定位方法[J]. 科技通报, 2017(3):198-202.

[10] 董洋溢, 李伟华, 于会. 基于混合余弦相似度的中文文本层次关系挖掘[J]. 计算机应用研究, 2017(5):1406-1409.

[11] Wei Q, Guangchun Z, Lei Z. Cosine similarity measures for dual hesitant fuzzy sets[C]//The 4th International Conference on Machinery,Materials and Computing Technology, 2016.

[12] Swe S N. Mining contents in web page using cosine similarity[C]//The 4th International Conference on Machinery,Materials and Computing Technology, 2011.

[13] 于晶贤, 李金秋. 泊松分布高阶原点矩的两种计算方法[J]. 数学的实践与认识, 2010(21):221-224.

[14] Yu-Bo S, Lan Z. Distributed secure quantum machine learning[J]. Science Bulletin, 2017(14):1025-1029.

[15] Qi H. Application of artificial intelligence in mechanical engineering[C]//International Conference on Computer Engineering,infomation Science & Application Technology, 2017.

古人在空间与陶瓷陈设上也着实花费了许多的心血与智慧，但是却仍然有着一定的缺点与不足之处。处于新的时代，陶瓷艺术在公共空间中的运用，不能一味照搬古人的智慧与思想，而应该与时俱进的融合现代社会的生活形态和审美标准，并且结合西方当代的陶艺理念，以达到在兼具造型美观与合理实用的基础上，做出更加丰富的式样来介入空间，表达与了解自我。

[16] Jonathan M S, Du Jing. Artificial intelligence and the future of education:big promises-bigger challenges[J]. Academics in China, 2017(4):257-265.

平台搭建按照“互联网+”的方式，整合各方资源，调整各方利益，在“融”字上做文章，实现各种资源无缝对接。平台为O2O线上线下相结合的模式，突出“互联网+军民融合”的运营理念，集聚军队与地方的政策、技术、专利、项目、条件、资本、服务和产品等各类供需信息，是一个全业务链的生态模式。目的是实现海量信息轻松掌控，跨界资源轻松整合，以技术为核心，知识产权作保护，金融投资做护航，乘坐互联网这趟快车，加快技术对接速率，减短资金流通周期，提高知识产权转移转化效率。该创新机制必须符合以下要求。

作者

李金，马文超，何兵，王琭璐，杨岸宁，王颖，梁洪

出处

《黑龙江大学工程学报》 2018年第01期

上一篇：黑龙江省东部矿区废弃地重金属潜在生态危害评价

下一篇：带有色观测噪声的多传感器协方差交叉融合Kalman滤波器及其精度分析

《黑龙江大学工程学报》2018年第01期文献

季节冻土区堤防原位监测与数值模拟分析作者：李子晗，史长莹，芒来

碾压混凝土拱坝诱导缝及其等效应力强度作者：渠亚伟，宁利中，宁碧波，田伟利，刘爽

弯曲破坏模式配筋砌块砌体剪力墙刚度方程研究作者：赵艳，刘洪波，白旭峰，王昭宁，陶冬冬，薛景

冰上沉排在寒区护岸工程中应用的研究进展作者：汪恩良，张栋，刘春利，韩红卫，解飞，姜海强

卫星控制网基线测量精度影响因素分析作者：唐彬，林莉莉，田敬锋，郭英起

具有分级结构的花状KY(MoO4)2:Ln3+微米球的可控制备及发光性质作者：于鸣琦，王国凤

二苯甲酰甲烷铒 β - 二酮配合物的合成和晶体结构作者：董艳萍，田喜强，孙红梅，迟云超，崔英姿 (绥化学院食品与制药工程学院，黑龙江绥化 152061)

黑龙江省东部矿区废弃地重金属潜在生态危害评价作者：刘欢，王笑峰，杨忠华，邓淑琴，尹文龙，郭显峰，张原培

基于改进文本特征的文本相似度研究作者：李金，马文超，何兵，王琭璐，杨岸宁，王颖，梁洪

带有色观测噪声的多传感器协方差交叉融合Kalman滤波器及其精度分析作者：齐文娟

基于LMD构建虚拟接收阵列的欠定语音盲提取作者：姜兴宗，王尔馥

基于深度学习的声纹识别方法研究作者：李晓坤，郑永亮，袁烺，陈虹旭，邵娜，杨磊，曹晓琪，姜诗萌

弹簧罩冲压工艺分析与落料拉深复合模模具设计作者：王帅，刘照松，陈莉

冰下分层采水器模型的数值模拟与优化设计作者：辛艳杰，郭雷，郭彤，底亚杰，李志军

船舶破冰振动噪声试验研究作者：翟恒宇，庞福振，缪旭弘

我校井立强、孙书利教授入选Elsevier 2017年度中国高被引学者榜单作者：本刊编辑部

西藏典型终碛湖溃决对下游工程的影响研究作者：杨金波，段文刚，王莉

杂志信息网