快捷分类

文本挖掘及其在信息内容安全中的应用

更新时间：2009-03-28

0 引言

随着信息技术的快速发展，特别是互联网的普及，以文本为载体的信息越来越多，如何在纷繁错杂的信息海洋中找到有价值的知识，维护和谐、文明的互联网环境，是当前急需解决的问题，因此文本挖掘相关的研究也应运而生。文本挖掘也称为文本数据挖掘，其主要目的是采用数据挖掘的技术，从非结构化或半结构化的语言文本中提取出潜在有价值的、新颖的、可被理解的、重要的模式和知识[1]，是保障互联网信息内容安全的重要手段。

文本挖掘是从数据挖掘中发展而来，传统的数据挖掘主要以数据库中的结构化数据为主，并利用关系表等存储结构来辅助知识发现，文本挖掘针对的对象主要是非结构化或半结构化的语言文本，其本身无具体确定的形式并且缺乏机器可理解的语义。传统的自然语言处理关注文本的词语、句法、语法以及语义含义，文本挖掘的主要目标是在借助于自然语言处理的相关技术，在大规模文本或文本集中发现其中隐藏的有意义的、可被使用的知识，实现对文本或文本集的理解和文本间关系的挖掘。因此，文本挖掘可以看作是数据挖掘技术和自然语言处理技术发展到一定阶段的产物。

信息内容安全属于信息安全的一个重要分支，主要研究在迅速变化且包含海量信息的互联网文本信息中，对与特定主题相关的数据和信息进行采集、分析和控制的技术，与传统的网络安全相比，其强调的是对互联网中传播信息内容的管控，对于加强互联网的内容建设、营造清朗的网络环境、保障社会的和谐稳定具有重要意义。网络内容安全关注的内容主要包含如下三类：一是涉政信息，主要指分裂国家版图、危害国家安全、影响社会稳定、反党反政府的谣言、虚假信息；二是色情暴力信息，主要指破坏网络文化环境，宣传低俗、色情、暴力等相关内容的信息；三是垃圾信息，主要是指隐藏在互联网文本中的各种无用的、不需要的信息，包括垃圾文本，垃圾广告、垃圾邮件等。

文本挖掘作为信息时代重要的研究领域，已经逐步发展成为国内外学者的研究热点，本文将针对文本挖掘的一般过程进行简单的介绍，对其中的关键技术进行梳理，并对其在信息内容安全中的应用进行简要介绍。

1 文本挖掘的一般过程

文本挖掘作为文本知识发现的同义词，其主要步骤如图1所示。

② 特征选择：对高维度的、结构化的文本特征空间进行缩减，去除一些无用的特征，只保留对表达文本内容作用较大的一些特征。

图1 文本挖掘的一般过程

保险管理的三个阶段是一个前后联系紧密，环环相扣的系统。投保策划决定了出险后事件的定责情况、理赔范围、免赔金额等。保险合同的履行是进行保险理赔的前提。保险理赔阶段将损失定量化，以获得赔付达到转移损失的目的。但是目前很多业主和承包商并没有将三个阶段很好的结合起来，投保时风险分析不全面，合同履行时不够重视，理赔时因承保范围不足，部分或全部损失不能进行理赔等，最终导致理赔效果不佳，经济损失弥补未能达到最大化。

① 特征抽取：建立文档的特征表示模型，将文本转化成一种可计算的、可表征文本内容的、类似关系数据的结构化形式。

文本预处理的任务是选取与特定任务相关的文本，将其转化成文本挖掘工具或相关算法可处理的中间形式，并检查数据的完整性与数据的一致性，对其中的噪声数据进行处理。通常包括两个主要步骤：

1.牛传染性鼻气管炎。喉头黏膜有溃疡灶，支气管有坏死灶，黏膜充血，黏膜上有积液，鼻中隔黏膜充血、出血，坏死，表面有粘液，肺泡内有脓液，有的病牛阴道黏膜红肿，散在多量颗粒状脓疱疹，有时表面附一层坏死膜。

(2) 文本挖掘

二是推进欧洲投资银行贷款山东沿海防护林项目工作。河口区沿海防护林项目共规划造林2400.6 hm2，其中生态型防护林2269.13 hm2、经济型防护林131.47 hm2。项目涉及造林小班103个，项目建设年限为4年，前三年主要是造林，第四年全面抚育。到目前为止，项目造林任务已全部完成，各造林模型面积与规划相符。营造林长势良好，抚育措施到位。同时，通过该项目的实施，促进了当地林业生产技术的提高，增加了农民就业机会，有效地改善了群众生产、生活环境、生态效益、社会效益、经济效益显著。

(1) 文本预处理

采用定义好的评估指标对获取的知识或模式进行价值评价，以决定所获取的知识或模式是否具有价值，并制定合理的知识表示模型和可视化方法，方便知识的应用。

图1标出了涡轮盘的3处危险点，表2为螺栓孔处、轮缘与幅板连接处、叶片叶根处安全系数和储备系数计算值，3处危险点的储备系数都>1，可以满足强度要求。其中，螺栓孔处的应力值最大，计算出的极限储备系数最低，后续进行涡轮盘的疲劳寿命预测以及涡轮盘低循环疲劳试验时，都把螺栓孔作为考核点，选取此处的应力值、应变值及此处温度下相应的材料参数进行计算和分析。

(3) 模式评估与表示

采用自然语言处理、机器学习、数据挖掘以及模式识别等相关的技术，提取面向特定应用目标的知识或模式，并分析其中蕴含的关系。

2 文本挖掘的关键技术

文本挖掘的主要任务包括以下几个方面：一是处理非结构化和半结构化的文本数据；二是处理文本内部复杂的词法、句法以及语义关系；三是发现文本中蕴含的知识或模式。对于非结构化数据的处理，一种是采用非结构化数据结构化的方法，将非结构化数据转化为结构化的数据，然后采用结构化数据处理的方法进行相关的处理，这也是当前主流的方法；另一种是构建一种全新的面向非结构化数据处理的方法直接对非结构化的数据进行处理，由于非结构化数据具有非常复杂的结构，导致其处理起来具有较大的复杂性，因此对算法各方面的要求都非常高，一般很难实现。对于文本词法、句法与语义信息的处理，一般是直接借助于自然语言处理与计算语言学相关的理论成果进行相应的处理和分析。对于文本中蕴含的知识或模式的发现，一般采用相关的分析挖掘技术进行分析和挖掘，各种相关方法和理论将在后面部分进行详细的介绍。下面将按照文本挖掘的一般过程，对其中涉及的主要技术及其发展进行阐述。

平常和同事们交流工作的时候，一些员工反映，有时领导要求多、要求高、要求急，落实时有点顾此失彼；文件资料汗牛充栋，规章制度浩如烟海，学习贯彻有点困难；工作中强调的中心重点比较多，不知道哪里是关键。这些说法虽然比较片面，但在某种程度上也是实情。关心员工成长，对员工提点要求是正常的，却不一定充分考虑了员工的感受，有可能忽略了员工基础条件和素养的差别。如同对客户服务要实行差别化管理一样，也要照顾员工资质条件的差距，在一个较为合理的支点上促使其发挥作用，“不抛弃、不放弃”，不然的话，哪怕大家都希望把事情做好，却不一定知道从何处做起，到何时算完。

2.1 数据预处理技术

数据预处理一般包含三个步骤：(1)文本的预处理；(2)特征表示与特征提取(3)数据有效性检验。与传统的结构化数据相比，文本数据缺乏固定的结构，同时其表现形式采用人类的自然语言，计算机对其理解的程度有限，很难深入的理解并处理其蕴含的具体语义。由于文本挖掘数据源的这些特殊性，使得数据预处理过程在文本挖掘中显得极其重要。

2.1.1 文本预处理

词是文本中能够独立活动的、有意义的、最小的语言成分，以英文为代表的拉丁语系语言之间是以空格作为自然分界符的，但是汉语词语之间并无明显的分隔标记。同时，在中文里，“词”和“词组”边界模糊，现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分，对于同一个短语，不同的人可能会有不同的标准，即使是同一个人也可能做出不同判断。因此，中文文本分词是中文信息处理的基础与关键。目前，中文文本分词主要有以下三大类的方法：基于词典的方法、基于统计的方法和基于知识理解的方法[2]。

基于词典的方法是按照一定的策略将待分析的汉字串与一个“充分大的”词典进行逐词匹配，如果匹配正确，则分词成功。基于词典分词方法的核心问题是词典结构的设计和匹配算法的设计。对于词典的结构问题，一般采用Hash表的存储方式，即首先按照GB2312中汉字的顺序进行排序并建立Hash表，再将对应的后继词及其相关属性放在对应的Hash表中。对于匹配算法，一般是在改善词典结构的基础上，采用一些性能比较优秀的查找算法如二分查找和树表查找。一般来说，这两个问题是相互制约的，具体的设计需要在时间和空间上进行衡量。在实际的分词系统中，一般将基于词典的方法当作一种初分手段，再结合一些其他的信息进一步提升分词的准确率。

基于统计的分词方法的主要思想是：词是稳定的字的组合，在上下文中，字与字的共现概率能够较好地反映成词的可信度，因此基于统计的分词方法以相邻两个汉字的统计信息作为分词的初步依据，常见的统计信息包括词频、N元互信息、卡方统计量、t-测试差等，再结合相关的统计语言模型和决策算法决定最优的切分结果。它的优点在于能够有效的解决歧义问题和新词识别问题，但是其训练语料的完备性及领域性会限制其性能。

基于知识理解的分词方法主要是基于句法、语法以及语义分析方法，通过对上下文内容所提供的信息进行分析，试图在理解文本具体含义的基础上对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控系统[3]。这类方法试图让机器具有人类的理解能力，需要使用大量的语言知识和信息，但是由于汉语语言知识的复杂性，现阶段还难以将各种复杂的语言信息组织成机器可直接读取的形式，因此目前基于理解的分词尚还处在试验阶段。

在实际的分词算法设计时，一般综合采用以上各种方法，利用各自优点，克服不足，以更好的解决分词难题。目前中文分词的难点主要在于跨领域中文分词方面，即如何有效提升由于领域变化而导致未登录词的识别效果较差的问题，如韩冬煦等[4]提出使用卡方统计量和边界熵并结合自学习和协同学习的策略提升跨领域的未登录词的处理能力。

2.2.2 文本聚类

2.1.2 特征表示与特征提取

文本特征指的是文本中关于文本内容的元数据，分为文本属性的描述性特征(如文本的名称、日期、大小、类型等)和文本语义特征(如文本的作者、机构、标题、内容、关键词、主题等)。特征表示是指以计算机可识别、可计算、可理解的特征项(如数值、向量等)对文本的元数据进行表示，从而实现非结构化文本数据的结构化处理。常见的特征表示模型包括：布尔逻辑模型、TF-IDF、n-gram语言模型、互信息模型、向量空间模型、Word2Vec、LDA主题模型等。同时，W3C组织还针对Web文档资源的语言和框架制定了XML、RDF等规范描述[5]。

通过特征表示模型构建的文本表示，往往具有较高的数据维度，会大大增加机器的训练学习时间。因此特征表示一般都与特征降维相伴而生，如邓晓衡等[6]在向量空间模型的基础上，采用多义词判别优化的同义词聚类方法，使得特征向量维度大大降低，有效提高了文本特征提取的准确性；王振等[7]通过引入特征词的词频因子和调节参数对卡方统计量方法和互信息方法进行改进，提出了一种混合的特征选择算法(CHMI)，在降低特征选择维度的同时也有效解决了互信息方法倾向选择低频词的缺点。

2.1.3 数据有效性检验

数据有效性检验主要是制定相关的规范对数据的完整性和一致性进行检验，并对其中的噪声数据进行处理，对丢失的数据进行填补，为接下来的数据挖掘工作做准备。现有的大多数的数据填补研究都集中在对于数值型数据的处理上，对于文本数据的填补处理还鲜有研究涉及。

对金融资产的重分类，可以有：将以公允价值计量的金融资产重分类为以摊余成本计量的金融资产、以摊余成本计量的金融资产重分类为以公允价值计量的金融资产以及两类以公允价值计量的金融资产之间的相互分类三种类型的六种业务。对于不同类型金融资产的重分类，其会计处理在新准则中都有相关的规定，以下通过粤信公司购入KY公司债券这一案例，分别探讨三种类型金融资产之间进行重分类的会计处理方法。

2.2 挖掘分析技术

文本经过预处理后，转换成了具有特定结构的结构化数据，为接下来的分析挖掘提供了基础。常用的文本挖掘分析技术有：文本分类、文本聚类、文本摘要生成、文本关联分析、分布分析和趋势预测等，接下来对各个相关技术进行简要的介绍。

例5：At Least 26 Killed in Collapse of Italian Bridge(BBC,14 Aug.2018)

2.2.1 文本分类

文本分类是指根据预先定义的文本主题类别，按照一定的规则将文档集合中未知类别的文本自动映射到其中的一个或几个类别中的过程，其核心是文本分类模型的构建。传统的文本分类算法分为以下四种：朴素贝叶斯算法、支持向量机、K近邻算法、Rocchio算法[8]。

朴素贝叶斯算法是一种概率模型，以文档属于某个类别的概率作为最后的分类指标，该算法需要估计的参数较少，实现比较简单，在文本特征属性相关性较小时具有较好的性能并且对数据缺失不太敏感，但是其并不能对文档的类别概率做出非常准确的评估，并且在属性较多或者属性间相关性较大时分类的效率较低。支持向量机是构建一个分类超平面，通过分类间隔最大化实现文本的分类，其优点是可以使用较少的训练数据达到较好的分类效果，同时还能很好的处理高维数据的数据稀疏问题，并对特征之间的相关性不太敏感，但是其过分依赖分类超平面附近的正反例，同时，其核函数的选取缺乏一定的指导理论，并且训练速度较慢。K近邻算法通过比较待分类样本之间的相似度，为待分类样本寻找最相似的K个样本，实现文本分类，该算法不需要进行训练，比较容易处理类别数目较多的分类情况，并且方法简单、性能稳定，但是当样本空间较大时，其计算开销和空间复杂度较高，并且K值的选取对性能的影响较大。Rocchio算法的基本原理是基于向量空间模型进行文本分类，首先计算每一类别文本的质心，通过计算待分类文档与每个类别质心的距离实现文本分类，该方法容易理解、实现简单、效率较高，但是文本分布直接影响了类别质心的选取，进而影响分类的效果。

当前随意查看一所学校的课程设置，就可以发现，几乎每所学校都有一个庞大的课程体系，国家课程门类自然一门都不能少，专题教育、地方课程是区域必须要求的，除此之外，不少学校赫然已经开发了上百门校本课程。细致分析会发现，这种“为开发而开发”的做法已经给学校课程建设带来了诸多问题。要破除加法法则，需要秉持整合思路，以学生的基本诉求为内在逻辑，统整学科育人要素，在符号世界与生活世界之间搭建桥梁，提升学生的学习与生活品质。

随着最近深度学习的兴起，各种基于深度学习的文本分类模型也应运而生，并逐步成为现在的主流方法。基于深度学习的分类方法主要是采用词向量表示技术对文本中的词语进行表示，进而构建句子和篇章的语义表示，在句子和篇章语义表示的基础上，对文本的类别进行确定[9]。如Kim[10]构建了一个多通道的卷积神经网络模型对文本的词向量表示进行特征学习，从而构建文本的语义表示，实现文本分类，这是较早采用深度学习模型进行文本分类的模型之一；Yang等[11]将注意力机制引入到了文本分类的研究中，基于注意力机制和长短记忆网络(Long Short-Term Memory，LSTM)构建了一个层次化的语义表示模型，分别对文本的句子和篇章进行编码，实现文本的分类。

根据表4中的关联系数，结合公式γi=1/N∑εi(k)，可以求出比较数列与参考数列各点的等权关联度γ=(0.6434，0.7344，0.6659，0.7667，0.7187，0.6280)。

单纯依靠林业部门的投资发展一个产业，并且要形成规模是远远不够的，在资金方面加大财政补贴力度，提高群众积极性，在政策允许的情况下，多渠道筹集核桃产业发展资金，如新农村建设、扶贫开发项目和水土保持工程等资金再给予倾斜。对符合国家信贷和产业政策的农业、林业龙头企业给予优先信贷支持。

文本聚类是将无标注的文本集根据文本间的主题相似性划分成若干个类簇，使得同类簇的文本主题相似度较大，而不同类簇的文本主题相似度较低。在现有聚类算法的基础上，文本聚类方法主要分为以下三类：利用外部信息增强的聚类方法、基于频繁词集的聚类方法以及基于主题模型的聚类算法[12]。

显然，各声索国分别基于各自对历史依据、国际法和南海对国家利益重要性的理解而对中国南海提出领土要求，相较之下，越南侧重所谓历史依据，菲律宾看重南海对其本国经济社会发展的重要性，而马来西亚和文莱则更多地基于《联合国海洋法公约》中的部分条款提出领土要求。由此，各声索国对南海的领土主张分别形成了各自的意象，即南海海洋权益与领土领海声索的依据、逻辑和目标等。

利用外部信息增强的聚类方法主要通过利用Wikipedia、百度百科、WordNet、HowNet等外部语言知识来丰富与扩充文本的语义信息，从而能够更好的对语义信息的相似度进行度量。如阳小兰等[12]将HowNet语义词库和BTM主题建模进行线性组合，综合考察文本的相似性，有效解决了文本聚类过程中相似度计算准确度较差、聚类结果不稳定等问题。利用外部信息增强的聚类方法虽然能够很好的对文本的语义信息进行补充，但是不具有普适性，对外部数据的领域性依赖较大[13]。

为了职业发展打下良好基础,高职学生更加注重专业技能的培养。科技在不断发展，教学模式也在不断改变，多媒体技术的应用也越来越贴近我们的生活了。教师教学、学生学习与以往相比，都有巨大的变化。传统的授课模式已经无法满足教师和学生的需求。随着人类对教学方法的不断追求，基于Moodle的高职商务英语翻译翻转课堂教学作为一种新兴的多媒体技术，正在慢慢地转变传统教学模式。本文从Moodle以及翻转课堂的概念展开分析，研究了高职商务英语翻译教学现状以及基于Moodle的高职商务英语翻译翻转课堂教学设计。

基于频繁词集的聚类方法是通过抽取文档中的频繁词集，运用频繁词集来表示每个文本的主题，从而实现更好的聚类效果，频繁词集是指同时出现在一定比例的文本中的词的集合，这些集合在某种程度上能够反映出一些关于主题的语义，因此该方法可以很好的解决传统文本表示的高维和语义缺失问题，但是频繁集的选取策略在很大程度上影响了聚类的效果[14]。如张雪松等[15]利用FP-Growth算法挖掘文档的频繁词集，构建了基于频繁词集的文本表示模型，采用基于网络的社区划分聚类算法和谱聚类算法实现了文本聚类。基于频繁词集的文本表示模型有效解决了传统的向量空间模型的高维和数据稀疏的问题，其聚类效果得到了很大的提升。

基于主题模型的聚类算法主要是通过利用主题模型实现文本的聚类，主题模型是一种包含文档、词汇和主题的三层贝叶斯网络的概率生成模型。在主题模型中，一个文本中往往会包含多个主题，而每个主题生成的各种词语的概率是服从多项分布的，通过主题聚类会得到一个文本在不同主题下的分布情况，即文本对每个主题的概率[16]。如秦永彬等[17]将主题模型、Single-Pass聚类算法以及词林相结合，在利用词林进行同义词合并的基础上，将LDA主题模型和Single-Pass聚类算法相融合，在文本聚类的基础上实现了微博用户的兴趣挖掘。基于主题模型的聚类算法很好的利用了文本的主题信息，具有较好的聚类效果，但是主题模型一般具有较高的计算复杂度。

2.2.3 文本摘要生成

文本摘要生成是指从文本中抽取关键信息，用简洁的形式对文本内容及其主题进行解释和概括。文本摘要生成的方法主要分为以下两类：抽取式的摘要生成方法和生成式的摘要生成方法。

抽取式的摘要生成方法也叫基于统计的文本摘要生成方法，其主要思想是文本一般都会存在一些主题句或主题词，且大部分位于文本的开头、末尾或者段首、段尾，因此可以根据线索词典、词频、词或句子的启发性函数对文本进行模式匹配，摘取文本中重要句子从而形成摘要。如Fattah[18]等人采用统计学方法提取了段落间的词相似度、句子间的词相似度、文本格式、词频、线索短语、冗余信息的出现情况、句子位置和标题等相关特征，并对相关特征进行了组合，实现了文本摘要的生成；Yang等[19]人提出了一种基于排名的句子聚类框架，通过概率生成模型和主题聚类模型，发现文本中具有表现主题特征的词语和句子，进而实现摘要的生成。抽取式的摘要生成方法实现较为简单，且不受领域性的限制，适应面较广，是当前主流的方法，但其缺乏语义信息的支持，单纯使用文本中原有的语句进行组合，有时其组合的较为生硬，不能很好的表示文本的主题。

生成式的摘要生成方法也称基于理解的文本摘要生成方法，主要利用词法、句法和语义信息，并结合相应的语言学知识，对文本的内容进行分析，在文本语义理解的基础上，自动生成句子，进而组合形成摘要。如Ji等[20]利用信息抽取的方法，抽取文本中的事实、实体和事件，在对其关系进行挖掘的基础上，构建了一定的排序策略实现了文本摘要的生成。由于语义理解目前还具有较大的难度，因此该方法仅适用于某一较窄的领域，并且需要领域性知识库作为支撑。

2.2.4 文本关联分析

文本关联分析是指挖掘文本集合的不同文档以及文档中不同实体之间的关系。关联分析一般通过构建频繁项集和关联规则来确定不同文本以及不同实体之间的依赖关系，频繁项集是经常一起出现的事物的集合，关联规则暗示了两种事物之间可能存在很强的关系[21-22]。在关联分析中，比较经典的算法是Apriori算法和FP-growth算法。Apriori算法主要分为两步：第一步采用迭代的方式，通过支持度模型实现频繁项集的发现；第二步利用频繁项集，构造出满足最小信任度的关联规则，进而实现关联关系的发现，该算法可能会重复检索频繁项集，具有较高的复杂度，同时无法对稀有信息进行分析。FP-growth算法采用了一种分治的策略：首先，构造频繁模式树，根据对应的最小支持度阀值，将包含频繁项集的树压缩到模式树上；其次，在模式树上进行频繁模式和关联关系的递归挖掘，该算法能够有效的挖掘各种频繁模式，而且其效率相比于Apriori方法提升了将近1个数量级，但是构建模式树需要消耗较大的内存空间。

2.2.5 分布分析与趋势预测

分布分析与趋势预测是指通过制定相应的评估体系，采用知识推理或信息融合的方法，对文本中各个方面的信息进行整合，从而得出相关内容在各个时刻所处的态势，并根据相关的历史情况，对相关内容未来的发展趋势进行分析与预测。分布分析与趋势预测一般针对特定的应用场景，具有极其重要的作用，如任巨伟等[23]通过构建微博文本的情感分析模型，实现了对特定事件在连续时间段内的公众情感趋势预测分析，对于舆情的发现、分析与控制起到了很好的辅助作用。对于分布分析与态势预测的主要方法一般有基于数学模型的评估与预测方法、基于知识推理的评估与预测方法和基于模式识别的评估与预测方法。

2.3 可视化技术

数据可视化指的是运用计算机图形图像学的相关理论和技术，将数据转换为图形、图像、3D场景或虚拟现实等形式，并提供相应的人机交互工具，使其能够呈现出更多明确地、有效地信息，方便知识的获取。如Dredze等[24]利用可视化的技术构建了一个基于Twitter的地理定位系统的——Carmen，将推文内容与地理位置相关联，并成功应用到了卫生监控管理领域；Ren等[25]构建的PKUVIS可视化工具能够十分清晰的展现微博中的转发路径，对于微博转发过程中关键节点和关键传播路径的获取起到了十分重要的作用。

很多产妇在生产后的几周内由于体质弱,缺乏大量的钙,往往会出现阴道松驰、子宫下垂等现象,直接导致了产妇在产后容易出现漏尿,引发各种妇科疾病,这主要是因为产后没有及时做骨盆修复的原因。

3 文本挖掘在信息内容安全中的应用

文本挖掘作为文本信息获取的重要手段，在维护互联网的信息内容安全方面起着重要应用，主要包含以下几个方面：

(1) 互联网中有害信息的抽取与情报收集。由于互联网中各种信息庞杂，真伪难辨，并且不同的信息之间缺少关联性，给有害信息的抽取带来了极大的障碍。通过构建面向网络文本的特征表示和提取模型，对信息进行特征抽取、量化和建模，实现对有害信息内容的有效识别，对有价值情报数据的快速收集，并构建抵御内容安全威胁、规避未知风险的信息服务平台，是当前信息内容安全技术研究的一个重要方向。

(2) 互联网信息内容的智能化分析与处理。互联网中的有害信息有很多都具有一定隐蔽性，常规的信息抽取方法很难获取其中的关键信息。通过构建互联网信息内容的智能化处理和分析平台，采用基于文本匹配、分类、聚类、过滤以及关联分析等相关的文本挖掘技术，实现互联网内容安全信息的快速、高效、准确获取是目前亟待解决的问题。

(3) 网络舆情预警监测系统的构建。网络舆情预警监测系统主要是对互联网中的海量信息资源进行综合分析，为政府及相关部门决策提供所需的有效信息。网络舆情预警监测系统是集信息获取、存储、分析、应用于一体的综合平台，文本挖掘技术作为文本数据获取与处理的重要手段，在其中扮演的重要的角色，与各种数据挖掘技术、自然语言处理技术以及大数据处理技术一起，是当前信息内容安全方面的研究重点。

4 结论

互联网的迅速发展给我们提供了海量信息，同时也使信息与知识的有效获取成为一个急需解决的问题。文本挖掘技术能够很好的从非结构化的文本数据中快速的获取有用的模式和知识，能够有效的解决信息提取与理解问题，进而提高数据的使用价值，同时也是维护互联网信息内容安全不可或缺的重要技术手段。本文对文本挖掘的基本流程进行了详细的介绍，并对文本挖掘中常用的技术进行了比较与分析，并就其在信息内容安全领域的应用进行了简要介绍。

文本挖掘技术的研究已经持续了很多年，所应用的领域也从专业文献扩展到了新闻、电子邮件进而延伸到了互联网网页。为了更好的提升文本挖掘的性能，将来可能需要在如下几个方面进行努力：(1)研究新的文本特征表示模型，文本表示是文本挖掘的基础，只有具有高效、合理的特征表示，才能挖掘出更多有用的知识；(2)发展全新的非结构化的文本挖掘算法，现在有文本挖掘大多是采用将非结构化数据转换成结构化数据，然后采用结构化数据的挖掘算法，在结构化的过程中必定会损失一些信息，如能研究出高效的非结构化挖掘算法，将会极大的提升文本挖掘的效果；(3)构建融合大数据处理、自然语言处理、数据挖掘、图像处理、模式识别相集成的文本挖掘综合系统，推动文本挖掘的产品化和工业化进程。

参考文献

[1] Mashechkin I V, Petrovskiy M I, Popov D S, et al. Applying text mining methods for data loss prevention[J]. Programming & Computing Software, 2015, 41(1):23-30.

[2] 黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007(3):8-19.

[3] 刘群, 张华平, 俞鸿魁,等. 基于层叠隐马模型的汉语词法分析[J]. 计算机研究与发展, 2004, 41(8):1421-1429.

[4] 韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281.

[5] Swick R R. Resource description framework (RDF) model and syntax specification [M]. W3c Recommendation World Wide Web Consortium, 2009.

[6] 邓晓衡,杨子荣,关培源.一种基于词义和词频的向量空间模型改进方法[J].计算机应用研究,2019(5):1-3.

[7] 王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018(4):1-7.

[8] 张磊.文本分类及分类算法研究综述[J].电脑知识与技术,2016,12(34):225-226+232.

[9] 张仰森,郑佳,黄改娟,蒋玉茹.基于双重注意力模型的微博情感分析方法[J].清华大学学报(自然科学版),2018,58(2):122-130.

[10] Kim Y. Convolutional neural networks for sentence classification[C]// Processing of the Conference on Empirical Methods in Natural Language Processing, 2014:1746-1751.

[11] Yang Z, Yang D, Dyer C, et al. Hierarchical attention networks for document classification[C]//Processing of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2016:1480-1489.

[12] 阳小兰,杨威,钱程,朱福喜.融合HowNet和BTM模型的短文本聚类方法[J].计算机工程与设计,2017,38(5):1258-1263.

[13] 牛亚男.具有词判别力学习能力的短文本聚类概率模型研究[J].计算机应用研究,2018(12):1-2

[14] 彭敏,黄佳佳,朱佳晖,等.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953.

[15] 张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112.

[16] Yan Xiaohui, Guo Jiafeng, Lan Yanyan, et al. A bitermtopic model for short texts [C]// Processing of the 22nd International Conference on World Wide Web. 2013: 1445-1456.

[17] 秦永彬,孙玉洁,魏笑.基于文本聚类与兴趣衰减的微博用户兴趣挖掘方法[J].计算机应用研究,2019(5):1-3

[18] Fattah M A. A hybrid machine learning model for multi-document summarization[J]. Applied Intelligence. 2014, 40(4):592-600.

[19] Yang L, Cai X, Zhang Y, et al. Enhancing sentence-level clustering with ranking-based clustering framework for theme-based summarization[J]. Information Sciences AnInternational Journal. 2014, 260(1):37-50.

[20] Ji H, Favre B, Lin W P, et al. Open-domain multi-document summarization via information extraction: challenges and prospects[J]. Theory & Applications of Natural Language Processing. 2013:177-201.

[21] Heaton J. Comparing dataset characteristics that favor the apriori, eclat or fp-growth frequent itemset mining algorithms[C]//Processing of the IEEEConference on Southeastcon. 2017:1-7.

[22] Asif M, Ahmed J. Analysis of effectiveness of apriori and frequent pattern tree algorithm in software engineering data mining[C]//Processing of the IEEE Conference on Intelligent Systems, Modelling and Simulation. 2015:28-33.

[23] 任巨伟,杨亮,吴晓芳,林原,林鸿飞.基于情感常识的微博事件公众情感趋势预测[J].中文信息学报,2017,31(02):169-178.

[24] Dredze M, Paul M J, Bergsma S, et al. Carmen: A Twitter Geolocation System with Applications to Public Health[C]//Processing of the AAAI workshop on expanding the boundaries of health informatics using AI (HIAI). AAAI, 2013: 20-24.

[25] Ren D, Zhang X, Wang Z, et al. WeiboEvents: A Crowd Sourcing Weibo Visual Analytic System[C]//Processing of the IEEEConference on Pacific Visualization Symposium. 2014:330-334.

作者

张丐卓

出处

《华北科技学院学报》 2018年第02期

上一篇：基于AHP-模糊综合评价法的工程项目风险研究

下一篇：没有了

《华北科技学院学报》2018年第02期文献

湍流脉动影响下巷道平均风速单点统计测量方法作者：李雪冰，刘剑，秦洪岩，王海东，胡洋

基于DSC的煤自燃倾向性研究作者：朱建芳，段嘉敏，郭文杰

型煤钻孔裂隙发育的数值模拟研究作者：齐黎明，张旭锟，王国玺，徐永

断层破碎区煤岩体失稳机制与注浆耦合控制研究作者：吕兆海，来兴平，赵长红，孙欢，闫瑞斌，方贤威，崔峰

首采工作面矿压显现观测设计方案研究作者：尚慧，崔慧霞

矿石分析仪在硅藻土分选中的应用研究作者：张开永

建筑物下工作面部分矸石充填开采充填高度的确定作者：秦洪岩，李洋，题正义，杨艳国

大宁—吉县地区古构造应力场恢复作者：吴志远，杨德芳，马丽红

我国矿山企业应急救援能力评估及发展对策作者：刘凯，马汉鹏，张洋洋，王语萌

基于Fluent城市天然气管道泄漏扩散研究作者：徐景德，马吉

电网电压骤升时双馈发电机电磁暂态特性分析作者：邢志刚

基于定容燃烧弹的不同初始压力甲烷爆炸特性研究作者：陈昊驰，徐景德，宋晓婷

基于数值模拟的炸药JWL方程参数可靠性研究作者：陈传进，夏方顺，徐家俊

基于模糊综合评价法的作业现场纳米二氧化钛职业危害评价研究作者：朱鹏，张超，李东明，柏松

一种水性环氧固化剂的制备与涂膜性能测试作者：马尚权，康惠花，钱瑞，马文广

聚苯胺/聚多巴胺Janus球的制备及其应用作者：王昊，王晓伟，李明阳，邓梅桂，张晓茜

浅析城市轨道交通项目试运营前热烟测试的组织协调工作作者：刘一凡

基于BIM技术的脚手架安全预防系统设计研究作者：徐祥，吴强杰

基于AHP-模糊综合评价法的工程项目风险研究作者：杜景峰

文本挖掘及其在信息内容安全中的应用作者：张丐卓

杂志信息网