更全的杂志信息网

结合注意力机制的长文本分类方法

更新时间:2009-03-28

对海量文本进行自动分类,在信息检索、网络舆情发现等领域具有广泛应用价值。其中,长文本由于字符数多,文本中常蕴含多个主题。另外,为维持良好的上下文结构及完整的句法结构,长文本常包含许多与主题相关性较低的句子。发现和过滤这种与主题相关性低的句子,加大对文本局部信息的注意力,可在提高长文本分类效率的同时,改善其分类效果。

1 相关研究

目前,文本分类研究多注重分类模型的构建和优化。传统机器学习模型,如支持向量机[1]、朴素贝叶斯、最大熵模型[2]等,以及神经网络(Neural Network,NN)方法,如卷积神经网络[3](Convolutional Neural Network,CNN)、长短时记忆网络[4](Long Short Term Memory Network,LSTM)等都被广泛研究和运用。总体来看,现有研究较少从文本信息过滤的角度改善分类性能。分析其原因,一是由于目前数据量大、计算力增强,同时模型参数多、容量大使得对时间代价不敏感,另外,常用的文本特征表示方法也使文本信息过滤方法难以改进。

“歪题正做”的第三要义就是语文教师的自觉意识、反思意识,选题要积极、健康,即使真正选“歪”了题,也要从正面来做,善于补救与矫正,发挥教研应有的导向作用和教研兴教作用。例如,有语文教师选了“语文教学中教师尊严丧失的必然性”,这样的选题就有点歧义,甚至是有点“歪”,如果改一改就不一样了,如“语文教学中树立教师尊严的方法”或“语文教学中教师尊严的丧失与矫治”等,就“正”了。

文本信息过滤是指从大量文本数据流中搜寻满足特定需求的文本[5]。现有文本过滤方法主要将文本看成词袋(Bag of Words,BOW)。常见的数据清洗如去停用词、去高频词等通常需维护自定义的词典,且词典内容较多依赖于交叉验证的结果。进一步的信息过滤为特征抽取[6],如通过互信息、信息增益、卡方值[7-9]等表示特征的重要性,再进行特征抽取。总之,基于BOW的文本过滤丢失了词序信息,在需要深入理解上下文语义的应用中,过滤后文本的分析效果难以改善。

543 Clinical value of high-resolution T2-weighted magnetic resonance imaging combined with readout-segmented echo-planar imaging in differential diagnosis of muscle and non-muscle invasive bladder cancer

近年来,用神经网络方法对词、短语、句子及段落等更大粒度文本特征表示方法的研究被广泛关注:词特征方面,Bengio等[10]提出用神经网络模型训练词向量;Mikolov等[11-13]提出结合哈夫曼编码的 CBOW 模型和 Skip-gram模型,以提升用大规模语料训练词向量的性能。短语及句子特征方面,Mitchell等[14]对向量加、张量积等短语组合模型进行了研究,其实证表明向量加是一种简单有效的语义组合方法,但是该方法与BOW模型一样忽略了词序信息;文献[15]将词向量与句法结构结合进行句子表示,该方法依赖于句法分析,因此只适合句子的表示;文献[16]提出了一种分布式记忆模型(Distributed Memory model of Paragraph Vectors,PVDM),可将任意长度文本表示为定长的段落向量(Paragraph Vector,PV),并用情感分类、段落相似度实验验证了PV的有效性。文献[10-13,16]为本文的特征表示方法提供了依据,使句子级信息过滤成为可能。

在改善文本分析效果方面,最早运用于图像处理的注意力(attention)机制[17]也被逐步用于自然语言处理领域,如结合 attention 机制的机器翻译[18]、情感分析[19]及问答系统[20]等。文献[21]将注意力机制用于文本的观点实体抽取,文献[22]将attention机制与CNN结合进行机器翻译,是注意力机制在CNN中较早的探索性工作。现有对attention机制的研究启发了本文方法的提出。

综上所述,基于现有研究对文本句子级信息过滤较少涉及,本文针对长文本分类任务,对如何进行句子过滤并改善分类效果问题进行了研究,提出了一种结合注意力机制的文本过滤方法及分类模型。首先建立句子与文本类别的注意力模型,再根据句子注意力进行信息过滤,最后构建结合句子注意力的卷积神经网络分类模型,用于改善过滤后文本的分类性能。实验在自然语言处理与中文计算(Natural Language Processing and Chinese Computing,NLP&CC)2014评测的新闻分类数据集上进行。本文方法在过滤后文本为过滤前文本长度的82.74%时,比过滤前文本的分类正确率提高2.1%,验证了本文方法的有效性。

2 长文本及句子表示方法

2.1 长文本及其特征分析

正文内容文本长度是一个相对概念,一般研究并无明确定义,但对分类速度、分类效果却会产生较大影响。相对于微博、网络评论等短文本,科技论文、新闻正文、公司年报等文本字符数多,属于长文本。以本文实验采用的NLP&CC2014评测的新闻分类数据集为例,分析该数据集的39 743条新闻正文,其长度(字符数)介于19~28 204(长度小于50的文本为新闻快讯)。去掉长度超过5000的133个样本,余下文本在各长度区间内的数量分布如图1所示(图1表示当文本长度以10字符为步长递增,在每一个长度区间内,文本数的统计情况)。

从图1可见,该数据集中,文本长度为300~500的占30.2%,长度为500 ~1 000 的占35.3%,约20.0%的文本长度超过1000。总体来看,本文采用的这一数据集属于长文本。由于长文本字符数多,一般会围绕文本主题展开较多补充性说明和描述,如包含句子“这是一件全世界瞩目的大事”“可能需要一到两星期”等。另外,长文本的句子数、段落数多,上下文结构完整,句子语法结构规范。为维持这种结构的完整性和规范性,文本中常包含承接句,如“有关专家认为”“据新华社2015年9月20日报道”等。这些句子与文本主题相关性小,在阅读时会分散读者注意力,不仅影响读者对文本主题的把握,且会产生较大分析代价。

  

图1 新闻文本长度分布Fig.1 Length distribution of news text

2.2 文本特征表示方法

其中:W是权重矩阵,表示为(w(1),w(2),…,w(k));b是偏置项,表示为[b1,b2,…,bk]; 输出 Y 再经 sigmoid激活函数及softmax函数,转换为di属于各类别的概率。图4中sofmax的输出如式(2):

  

图2 分布式记忆模型Fig.2 Distributed memory model of paragraph vectors

如图2所示,PV-DM将段落矩阵Q与段落中的词向量W拼接,作为神经网络模型的输入。网络训练时,预测当前输入文本的下一个词,以下一个词出现的最大似然估计为目标,用随机梯度下降法训练网络参数。训练结束后,段落文本被映射为定长的实向量,即段落向量,PV-DM同时还得到各词的词向量。用训练好的PV-DM,可将任意长度的文本映射成段落向量。

在长文本分类问题中,将文本中长度各异的句子表示为定长的向量,有利于进行句子级的文本分析,提高长文本分析速度。因此,本文用文献[16]的PV-DM生成文本句子的段落向量(本文称为句向量)。对本文中需运用词特征的场合,本文用词向量表示词特征。

3 文本注意力发现

3.1 句子注意力

受人类注意力的启发,基于神经网络的注意力(attention)机制最早被用于视觉图像处理[17]领域。人们在观察图像时,并非一次看到图像的每个位置,多是将注意力集中到图像的局部。与观察图像类似,在阅读长文本时,通常读者会结合自身认知,着重注意文本的某些局部信息,以快速把握文本主题。例如如下文本:

专家敦促东亚太平洋各国加强艾滋病患者咨询服务.记者樊曦雷柏松.3月24日专电.联合国儿童基金会的一位艾滋病专家24日在此间表示,为艾滋病感染者提供咨询是抑制艾滋病病毒传播的有效途径.“如果我们不能正视艾滋病,不与这些人坦诚地交流,就无法控制这种疾病的传播.”联合国儿童基金会东亚及太平洋地区办公室艾滋病顾问郑咏诗说.她同时指出,在过去的两年间,东亚及太平洋地区艾滋病患者的人数增长了50%,艾滋病正在逐渐通过接触吸毒者、性工作者和男同性恋者等高危群体的中间人群向普通大众传播.郑咏诗还特别强调,要向普通大众特别是15岁至24岁的青少年进行宣传教育.

如果将上述整段文本看成如图3所示的图像,通过突显文本的某些句子,如将“专家敦促东亚太平洋各国加强艾滋病患者咨询服务”加下划线,将“联合国儿童基金会东亚及太平洋地区办公室艾滋病顾问郑咏诗说.”加波浪下划线,可帮助读者快速把握文本主题。图3是用本文的句子注意力模型,计算文本句子的注意力,并由此计算其对分类的贡献度,根据贡献度值标注的下划线型。不同线型体现了句子对分类的贡献度,下划线表示贡献度最大,波浪下划线次之,无下划线的句子对文本类别的贡献度最小。

  

图3 句子注意力示意图Fig.3 Schematic diagram of sentence attention

从图3可见,在文本中抽取句子的关键信息,与人类的注意力机制很相似。突显的句子有利于快速把握文本主题,在需进一步理解文本的场景中,可继续分析带波浪线或无下划线的句子,以加深对文本的理解。另外,在不同的应用问题中,对同一文本可能关注不同的句子。如图3文本在新闻分类和观点检测问题中,关注的句子是不同的。由于本文将句子注意力用于文本分类任务,因此本文的句子注意力,是指句子对该文本所属类别的注意力。发现文本中不同句子的注意力,可以快速过滤注意力较小的信息,降低计算任务的复杂度。

3.2 句子注意力计算

为提取句子对类别的注意力,本文提出构建图4所示的注意力模型,将句子与其所属文本的类别以加权的形式联接,再通过softmax函数得到句子对于类别的概率分布,即句子的注意力向量。

图4所示注意力模型本质是一个基于单层神经网络的softmax分类器,其输入是句向量,输出是句向量对于文本类别的概率。设任意文本D表示为(d1,d2,…,dn),其中n为D的句子数,句向量di∈RM,M为句向量维数。图4模型的输入为句向量di,输出Y是一维实向量,表示为[y(1),y(2),…,y(k)],其中k为分类类别数,y(k)为di属于第k类的得分,Y的计算如式(1):

①本装置取用轮对方便,坚固可靠,能大量节约轮对存放场地空间。本装置在现有车间厂房内安装,与生产场所相邻,取用方便;移动轮对所用气缸的气源与车间既有压缩空气管路相连接,不必另行安装空压机房。

概念性知识是生物学教学的重要内容,张树虎等人依据生物学概念存在的形态将生物学概念分为直接概念、描述型概念、创设型概念。其中,创设型概念是指事实存在的生命现象,但无法将其对应到实质的知觉上,必须依靠想象后才能知道,例如基因、有氧呼吸、进化等。从某种程度上说,学习生物学科知识的重点,就是理解概念及由概念构成的知识系统,学生只有准确、清晰、有层次地理解和掌握了生物学“创设型”概念,才能更好地学会生物学,这也是提高学习能力和解决生物学问题的逻辑基础。下面从概念表征的角度探究学生的“创设型”生物学概念的表征现状,为构建“创设型”生物学概念的教学提供参考。

 

正文内容Word Embedding(本文称词向量)是目前被广泛使用的词特征表示方法。词向量可通过神经网络模型,结合上下文信息,将词映射成低维实向量而得到。词向量避免了BOW模型中特征的高维、稀疏问题,同时词的语义被分布到词向量的各维上,相似词在向量空间中的位置更相近,较好地表达了词的语义。但仅用词向量仍难以描述复杂的文本语义,因为文本语义多是由词组合表达的。结合词向量生成模型,文献[16]提出了PV-DM,用无监督方法生成任意长度文本的段落向量。PV-DM的结构[16]如图2所示。

 

<doc id=“1”>

 

其中m为训练集的句子数。训练结束后,对待分析文本T的句子集(t1,t2,…,th),ti为句向量,依次将ti作为输入,模型输出ti属于各类别的概率值,将其作为ti对于类别的注意力向量,由此得到表1所示的句子注意力矩阵ATT_MATRIX。

  

图4 句子注意力学习模型Fig.4 Sentence attention learning model

 

表1 句子的注意力矩阵ATT_MATRIXTab.1 Sentence attention matrix ATT_MATRIX

  

句向量 1 2 …k t1 p(y=1|t1;W)p(y=2|t1;W)…p(y=k|t1;W)t2 p(y=1|t2;W)p(y=2|t2;W)…p(y=k|t2;W)

其中,k为分类类别数,ATT_MATRIX[i]是ti的注意力向量,表明ti对各类别的置信度。本文在分类前,根据句子的注意力计算其对分类的贡献度,以进行句子过滤。

4 结合注意力的CNN分类模型

4.1 基于attention的句子过滤

句子的注意力向量实际是其属于文本类别的概率值,本文将该概率值看成句子对文本类别的置信度。概率值越大,其对类别的置信度越高。因此,对概率最大值也较低的句子,认为其对类别的置信度不高,这类句子对文本分类的贡献度也较弱。为提高分类效率,在分类前过滤这类句子。本文提出将注意力向量的均方差定义为句子对分类的贡献度,对句子di,其贡献度计算如式(4)所示:

1 ml样品溶液加入2.5 ml磷酸缓冲液和2.5 ml 5%的铁氰化钾溶液,震荡混匀,50℃反应20 min,向上述反应物中加入三氯乙酸,震荡混匀,离心,取上清液。向上清液中加入三氯化铁(0.1%),700 nm处测吸光度。

 

其中:k为类别数,atti[r]是di对类别r的注意力,a是注意力均值,为1/k。式(4)描述了句子对分类的贡献度。在一个三分类问题中,设句子 d1、d2 的注意力分别为(0.36,0.30,0.34),(0.43,0.29,0.28),a 为 0.33,则 Cd1、Cd2 分别为 0.000 63、0.0047,即句子 d2对分类贡献度更大。设注意力矩阵为ATT_MATRIX,任意文本 D 表示为(d1,d2,…,dn),句向量di∈RM,本文的句子过滤如算法ATT_FILT所示:

算法ATT_FILT:

Input:D,ATT_MATRIX

Output:D

Steps:

a=1/k

而除了入股普洛斯外,万科还与四家公司共同设立60亿元的物流地产基金,用于投资境内确定区域的拟建、在建及已建成的物流地产项目。很显然,物流市场已经成为了万科在房地产开发之外的重点业务。

for each diin D:

从图7中Baseline的分类效果看。当threshold为3.1×10-4时表示对过滤前文本的分类正确率,为78.73%。如果以threshold等于3.4 ×10-4为过滤点,如图6、图7所标注,此时L'为L的82.74%,分类正确率为78.51%,比过滤前文本降低了0.28%。可见本文方法可较好地过滤相关度低的句子,随文本长度缩短,分类性能没有显著下降。实验在threshold为3.3 ×10-4时,L'为 L的90.85%,其分类正确率为78.85%,完全超过了过滤前文本,也表明本文对相关度低的句子的过滤有效;但是在图7所标注的“D”点处,可见当threshold大于4.8×10-4时,正确率急速降低,对比图6可见,此时文本长度L'与词项数W'并无显著下降。该现象表明,由于句子过滤的粒度太粗,当文本保留的词项达到一定阈值时,再进行句子过滤可能使某些文本的特征损失过大,导致分类正确率大幅降低,因此句子过滤方法更适于对大量相关度低的信息进行快速过滤。当文本保留的词项达到一定阈值后,应结合词项特征及n-gram特征,对文本作进一步分析。

这便是运用计算思维解决问题的一般方式,在学习和生活中,遇到任何问题,首先应该去思考如何运用此种方式方法来进行问题的分析、思考、解决等。久而久之,便能逐渐提高系统、科学的思维能力和思考习惯。

 

if(Cdj<threshold)

图6是用算法ATT_FILT进行句子过滤时,过滤后文本长度、词项数、句子数占过滤前文本的比例随threshold的变化情况。其中,长度指文本的字符数,词项数指文本中的不重复词数。本文实验用5折交叉验证,记录threshold与过滤效果的关系。交叉验证表明当threshold大于5.0×10-4时分类正确率低于69.0%,当 threshold小于3.1×10-4时过滤句子数趋于零,因此本文记录的 threshold测试区间为[3.1×10-4,5.0 ×10 -4]。

纺织配饰品一般具有两种功能:服用性和装饰性。比如手套、围巾、帽子之类更多的是具备服用性,装饰性其次。而领结、装饰手套之类更多的是具备装饰性。生产企业有时会很困惑这么多的标准,怎样对应使用最为合适的标准?一旦对应错了产品标准,企业将会面临巨大的损失。首先产品质量没有得到最为合适的控制,有可能按标准检测后产品合格,进入市场后消费者体验很差,那么企业的信誉将受到严重损害,影响以后的销售;也有可能用错误的标准多次测试都不合格,无法顺利进入市场。其实,FZ/T 73044-2012《针织配饰品》和FZ/T 82006-2018《机织配饰品》都明确规定了其适用范围。

其中,remove方法表示从文本 D中删除句子di。算法ATT_FILT需设置超参数threshold,具有较大的启发式特征。本文在实验中用交叉验证法设置threshold,对比了其对分类效果的影响。

4.2 结合attention的CNN模型

对文本分类问题,文献[3]提出了一种基于CNN的分类模型。该模型无需过多干预文本,在本文前期的中文分类研究中都表现了稳定的性能。由于本文着眼于句子过滤后的分类性能,因此仅以文献[3]模型作为Baseline,研究句子注意力是否能对文本分类产生积极影响。为将句子注意力矩阵用于分类,本文对CNN模型进行简单结构调整,得到图5所示的结合attention的分类模型,称为CNN_A模型。对任意文本D,首先将其词向量拼接成KEYS矩阵,然后将句子注意力作为句中词的注意力,拼接词注意力向量成ATTS矩阵。将KEYS与ATTS作为网络输入,分别经卷积计算抽取特征图FKEYS、FATTS;对 FKEYS、FATTS 分别进行 max pooling,并经全连接层及softmax得到网络输出,即文本D所属类别。

1)构造输入数据。

设文本 D 为{t1,t2,…,tn},ti为其任一词项,n是 D 的词数,WDIC∈RN×dim为训练好的词向量,N为词总数,dim为词向量维度。以WDIC为查找表,查找D中各词的词向量,拼接得到词向量矩阵 KEYS ∈ Rn×dim,表示为(m1,m2,…,mn),其中mi∈ Rdim

ti∈D,构造词句二元组(ti,sj),其中sj是ti所处的句子编号。对ti∈D,从表1所示矩阵ATT_MATRIX中,提取ATT_MATRIX[sj],将其作为ti的注意力向量。再拼接各词的注意力向量,得到注意力矩阵ATTS∈Rn×k,表示为(a1,a2,…,an),其中 ad∈ Rk,k是分类类别数。

面对日益严峻的大数据安全形势,目前主流的安全解决方法包括:经典的文件访问控制技术、设备加密技术、匿名保护技术、加密保护技术、数据水印技术等。同时提出利用大数据技术本身用作大数据安全防护的实现方法,增强大数据时代的信息安全防护性能。

2)网络训练。

网络训练过程分为3步:

③全连接层参数训练。将采样层输出F作为一个全连接(Full Connection,FC)层的输入。通过后向误差反馈和随机梯度下降法,训练FC层的网络参数。

② 采样及随机 dropout。特征图 FKEYS、FATTS经max pooling采样以减少参数数量,将采样结果拼接为一维实向量F。在训练阶段对F进行随机dropout,使采样的输出每次随机减少,以避免模型过拟合。

①特征抽取。KEYS和ATTS分别用不同卷积核,经卷积层进行特征抽取,KEYS经卷积层输出特征图FKEYS,ATTS经卷积层输出特征图FATTS。

  

图5 结合句子注意力的卷积神经网络分类模型Fig.5 CNN model for text classification combined with sentence attention

5 实验结果及分析

5.1 实验数据及实验方法描述

实验数据来自NLP&CC 2014评测的新闻文本分类任务。其数据格式如下:

式(2)求解的是di属于类别r的概率。在训练阶段,模型以二元组(di,yi)为训练数据,其中yi是句子di所处文本的类别,以式(3)为损失函数,用随机梯度下降法更新网络参数W和b:

<content>新华网吉隆坡2月26日体育专电(记者赵博超)经全球媒体提名投票,博尔特、纳达尔等体坛名将获2014年劳伦斯世界体育奖提名.其中,博尔特和小威廉姆斯已经赢得过3次劳伦斯奖.

集装箱箱体种类众多,有 20 ft、30 ft、40 ft等多种规格,体积从约6 m*3 m*3 m到14 m*3 m*3 m不等,大多都空间较大,所以在监测内部温湿度等环境因子时单一节点不能满足实际要求,为了更准确的反映箱体内部的实际情况,系统采用分布式的检测节点布置方式,在系统搭建中将两个检测节点挂载在RS485总线上,然后通过RS485转USB接口接入到系统控制核心树莓派中。

</content>

<ccnc_cat id=“1”>39.14< /ccnc_cat>

</doc>

其中,<content>标记间为新闻正文。正文以新华社新闻分类编码法进行二级类别标注,如上例文本类别为39.14,表示一级类别“体育(39)”中的“体育奖(14)”类。本文选取样本数大于1000的一级类别作为实验数据,共包括19个类别,39743个样本。实验文本长度介于19~28 204,用符号集[,.?!]进行分句后,单个文本包含句子数介于3~1 608。实验以75%为训练数据,25%为测试数据,所用句向量、词向量维度均为400,以分类正确率为评价指标,对未登录词的词向量随机初始化。

5.2 实验结果分析

1)结合句子注意力的文本过滤效果分析。

remove(D,di)

设文本过滤前、后的长度、词项数、句子数分别为(L、W、S)、(L'、W'、S')。从图6 可见,当 threshold 为3.1 × 10-4时,没有任何句子被过滤,即为过滤前文本。随threshold增加,文本长度及句子数减少速率显著高于词项数。当threshold为5.0×10-4时,L'为 L 的41.38%,S'为 S 的41.52%,此时保留的词项数W'为W的69.32%,这表明本文方法过滤的句子中包含较多高频词,当文本长度大幅减少时,仍较好地保留了文本的词项,这也与一般文本过滤方法的思路是一致的。另外,图6中句子数与文本长度变化趋势完全一致,表明本文过滤的句子平均长度是均衡的,未出现短句或长句被集中过滤的情况。图6在threshold较小时,文本长度减少速率大,例如threshold在3.2 × 10-4 ~ 3.4 × 10-4内,文本长度减少了18.3%,表明文本中贡献度小的句子数量较多。

  

图6 文本长度、句子数、词项数随threshold变化情况Fig.6 Text length,sentences and terms change with threshold

2)结合句子注意的CNN_A模型分类性能。

以文献[3]的CNN模型为Baseline,图7是本文的CNN_A模型与Baseline的分类正确率随threshold变化情况。

  

图7 CNN_A模型的分类性能Fig.7 Classification performance of CNN_A

atti=ATT_MATRIX[i]

从baseline与CNN_A模型的分类性能看。图7中,CNN_A的分类正确率整体高于Baseline。当threshold为3.5×10-4时,L'为L的 76.41%,CNN_A 正确率为78.93%,已超过了Baseline对过滤前文本的分类正确率。当threshold为3.4×10-4时,L'为 L的82.74%,CNN_A 正确率达到 80.39%,比Baseline对过滤前文本的分类正确率高出了2.1%。这一结果表明,注意力矩阵在CNN_A模型学习文本特征的过程中,起到了积极的影响。

用染色序列对P进行着色,实际上是对m(2n+1)+2n-1条边进行着色,而图4中色集合的个数有个,根据上述染色算法,当k是奇数时,有当k是偶数时,有因此恒成立,此时求得最小的整数k满足⎤。

总体来看,CNN_A模型对过滤后文本分类的正确率,优于Baseline对过滤前、过滤后文本的正确率,从一定程度表明本文的句子注意力对文本特征的学习起到了积极影响。但CNN_A模型把句子注意力作为句中词的注意力,直接作为模型的输入,这种方法是句子注意力与文献[3]模型的简单结合,具有较大的启发式特征。实际上,句子注意力如何用于分类,与选取的分类模型存在很大关系,需针对不同分类模型,具体研究其与句子注意力的结合方式。因此,对如何在分类模型的结构方面更好地运用句子注意力,还需进一步研究。

6 结语

针对长文本字符数多,大量描述及承接性句子与文本的主题相关性小,影响分类性能的问题,提出了结合注意力机制的信息过滤及文本分类方法,将句子级信息过滤与长文本分类相结合,以改善长文本分类性能。首先将文本的句子表示为句向量,然后构建句向量与文本类别的注意力模型,用于计算句子注意力,将句子注意力的均方差作为句子对分类的贡献度,进行句子筛选,最后用结合注意力的卷积神经网络进行文本分类。对NLP&CC2014评测的中文新闻分类实验表明,用本文的句子过滤及分类方法,当过滤后文本长度为过滤前文本长度的82.74%时,分类正确率为80.39%,高于过滤前文本2.1%,表明本文方法可以在过滤相关性较小的句子的同时,维持或提高分类性能。实验同时表明,句子过滤的粒度较粗,在过滤后文本词项达到一定阈值时,还应结合词项特征及n-gram特征对文本作进一步分析。

2008年9月15日,美国知名投行雷曼兄弟公司申请破产,这标志着次贷危机正式演化为全面的金融危机,始于美国的这场金融海啸最终波及全球。

从本文方法的特点及存在的问题看,本文用基于PV-DM表示的句向量进行句子过滤,因此分类性能一定程度依赖于句向量质量。另外,本文的句子过滤方法依赖于阈值设定,需通过交叉验证进行参数寻优。本文在CNN_A分类模型中,将句子注意力直接作为句中词的注意力,虽然过滤后文本的分类正确率有所提高,但该方法具有一定的启发式特征。后续将在注意力机制与分类模型相结合方面,展开进一步研究。

参考文献(References)

[1] JOACHIMS T.Text categorization with support vector machines:learning with many relevant features[C]//Proceedings of the 10th European Conference on Machine Learning.London:Springer-Verlag,1998:137-142.

[2] PANG B, LEE L, VAITHYANATHAN S.Thumbs up?Sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing.Stroudsburg:Association for Computational Linguistics,2002:79-86.

[3] KIM Y.Convolutional neural networks for sentence classification[C]//EMNLP 2014:Proceedings of the 2014 Conference of Empirical Methods in Natural Language Processing.New York:ACM,2014:1746-1751.

[4] ZHOU C T,SUN C L, LIU Z Y,et al.A C-LSTM neural network for text classification[EB/OL].[2017-06-20].https://arxiv.org/pdf/1511.08630.pdf.

[5] 苏新宁,杨建林,江念南,等.数据仓库和数据挖掘[M].北京:清华大学出版社,2006:199-200.(SU X N,YANG J L,JIANG N N, et al.Information Storage and Retrieval Systems [M].Beijing:Tsinghua University Press, 2006:199 -200.)

[6] YANG Y,PEDERSON J O.A comparative study on feature selection in text categorization[C]//Proceedings of the 14th International Conference on Machine Learning.San Francisco, CA:Morgan Kaufmann Publishers, 1997:412 -420.

[7] 孙丽华,张积东,李静梅.一种改进的KNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25 -27.(SUN L H,ZHANG J D,LI J M.An improved K-nearest neighbor system and its application to text classification [J].Applied Science and Technology,2002,29(2):25-27.)

[8] 朱寰,阮彤,于庆喜.文本分割算法对中文信息过滤影响研究[J].计算机工程与应用,38(13),2002:62 -65.(ZHU H, RUAN T,YU Q X.Studies on text segment algorithms'influence on Chinese-based information filtering [J].Computer Engineering and Applications, 2002, 38(13):62 -65.).

[9] 何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15.(HE X G, PENG F Y.Fuzzy classification of Chinese texts[J].Journal of Chinese Information Processing, 1999,13(1):9 -15.)

[10] BENGIO Y,DUCHARME R,VINCENT P,et al.Neural probabilistic language model[J].Journal of Machine Learning Research,2003,2006,3(6):1137-1155.

[11] MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space [EB/OL].[2017-06-20].https://arxiv.org/pdf/1301.3781.pdf.

[12] MIKOLOV T,YIH W,ZWEIG G.Linguistic regularities in continuous space word representations[EB/OL].[2017-06-20].https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/rvecs.pdf.

[13] MIKOLOV T, SUTSKEVER I, CHEN K.Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems.Lake Tahoe:Curran Associates Inc., 2013:91-100.

[14] MITCHELL J, LAPATA M.Composition in distributional models of semantics[J].Cognitive Science, 2010, 34(8):1388 -1429.

[15] SOCHER R,LIN C C,NG A Y,et al.Parsing natural scenes and natural language with recursive neural networks[C]//ICML 2011:Proceedings of the 28th International Conference on Machine Learning.Bellevue, Washington:OMNI Press, 2011:129 -136.

[16] LE Q, MIKOLOV T.Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on International Conference on Machine Learning.Cambridge,MA:MIT Press,2013:1188 -1196.

[17] MNIH V,HEESS N,GRAVES A,et al.Recurrent models of visual attention[C]//NIPS 2014:Proceedings of the 27th International Conference on Neural Information Processing Systems.Cambridge, MA:MIT Press, 2014:2204 -2212.

[18] BAHDANAU D,CHO K,BENGIO Y.Neural machine translation by jointly learning to align and translate[EB/OL].[2017-06-20].http://nlp. ict. ac. cn/Admin/kindeditor/attached/file/20141011/20141011133445_31922.pdf.

[19] CHEN H M,SUN M S, TU C C,et al.Neural sentiment classification with user and product attention[C]//ACL2016:Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin, Texas:Association for Computational Linguistics,2016:1650 -1659.

[20] HERMANN K M, KOCISKY T, GREFENSTETTE E, et al.Teaching machines to read and comprehend[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Cambridge, MA:MIT Press, 2015:1693 -1701.

[21] HE R, LEE W S, NG H T, et al.An unsupervised neural attention model for aspect extraction [EB/OL].[2017-06-20].http://www.comp.nus.edu.sg/~ leews/publications/acl17.pdf.

[22] YIN W,SCHUTZE H,XIANG B,et al.ABCNN:attention-based convolutional neural network for modeling sentence pairs[EB/OL].[2017-06-20].http://www.aclweb.org/anthology/Q/Q16/Q16-1019.pdf.

 
卢玲,杨武,王远伦,雷子鉴,李莹
《计算机应用》 2018年第05期
《计算机应用》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号