更全的杂志信息网

一种改进的Attention-Based LSTM特征选择模型

更新时间:2016-07-05

0 引言

伴随信息技术的发展和大数据时代的到来,各大高校对打造“智慧校园”[1]的需求不断增长。高校在举办不同类型的学术活动之前会在官网上发布通知公告。准确高效地抽取出学术活动通知公告的相关内容,并将学术活动分类统计,能够有效地整理、组织、查阅学术活动相关信息。针对高校学术活动进行文本分类是十分重要的。

文本分类是自然语言处理中的基本任务之一。文本分类是指计算机将一篇文章归于预先给定的某一类或某几类的过程[2]。机器学习自90年代被应用于文本分类以来,以其强大的适应能力获得了突出的效果。目前,用于文本分类的机器学习算法有很多,例如,朴素贝叶斯算法[3]、K最近邻算法[4]、支持向量机(Support Vector Machine,SVM)等[5]。近年来深度学习在图像分类等领域取得了很大的进展,研究者们逐渐尝试在自然语言处理领域使用深度学习技术。最常见的是循环神经网络(Recurrent Neural Network,RNN),RNN能够使用上下文信息,在解决序列化的问题上有突出的效果,在自然语言处理领域应用广泛。然而RNN具有梯度爆炸和消失问题[6],而且在长序列的处理问题上表现不理想。后来,人们采用长短时记忆(Long Short Term Eemory,LSTM)[7]来处理长序列问题。目前LSTM已经在自然语言处理领域有了多种应用,例如,谷歌在其机器翻译方面就使用了LSTM[8]。紧接着又衍生出许多改进的模型,如树形结构的长短时记忆神经网络(Tree-LSTM),双向长短时记忆神经网络(Bi-LSTM),经常被用于解决序列化的问题,如机器翻译,中文分词等[9]

LSTM与机器学习模型相比在自然语言处理中往往能获得更优的效果。因此,人们也更多地将目光聚焦在采用LSTM等深度学习方法处理文本分类的问题上。

主 讲 简 介:

本文基于Attention-Based LSTM特征选择模型,通过改进模型输入,提出了一种应用于高校学术活动的文本分类方法。该方法能够改善数据质量,降低数据维度,并有效地突出重点信息,优化特征向量。本文方法在准确率、召回率和F值方面较传统分类模型有较大的提高。

1 学术活动分类

1.1 特点

通常的文本分类以新闻文本分类为主。新闻文本的数据获取较为容易。新闻文本在分类体系的选择上具有较大的随意性[10],分类类别并不固定。高校学术活动文本的领域性较强,类别较为固定。与通常的文本分类不同,学术活动文本数据集的获取是非常困难的,因为研究者较少,互联网上也没有公开的数据集。本文针对某高校网站,爬取其各学院学术活动页面内容,获得学术活动的文本数据集。然后对数据进行编码向量化,输入Attention-Based LSTM模型中进行特征选择和分类。

1.2 数据来源

本文研究使用的高校学术活动文本数据从某高校网站上爬取获得。如何去掉标签、广告、导航栏内容等无关信息,只提取标题和正文内容是爬取工作的首要任务。通过大量观察网站上的学术活动网页源代码,可以发现高校官网内容的组织形式都比较规范,绝大多数的正文内容可以在

标签中找到,而标题几乎都存在于标签中。基于上述情况,本文提出如下规则用于提取标题和正文信息:

通过提取

标签中内容来提取标题;

本文提出了一种改进输入的Attention-Based LSTM模型来进行高校学术活动的文本分类工作。本文采用字符级语言模型,对输入进行五笔码转化,随后进行文本数据向量表示,再输入Attention-Based LSTM模型进行分类。

本文研究的高校学术活动文本与一般文本相比有内容长短不固定、格式严格、专业术语多等特点。在分类前首先要进行文本预处理,提取标题和正文,再依据内容是否固定进行不同的文本数据编码工作。对预处理后的数据进行向量表示,然后运用Attention-Based LSTM模型来选取特征,再训练分类器。分类器训练完毕后,输入测试数据,对产生的分类结果进行评价,并根据评价结果对该系统进行分析和改进。

对于没有

标签的页面,使用标签来提取正文内容;

在现有研究和实地调研的基础上,本研究构建了黑龙江省高校创新能力的测量模型。为了研究的完整性,本研究还探讨了高校创新能力对高校绩效的影响。

标签或标签中还有其他标签,去除这些标签,只保留其中的文本信息。

部分学术活动页面的正文内容在页面上的word或pdf附件中。对于有附件的页面,可以通过直接提取附件中的文本内容来提取正文。

通过上述规则和提取附件内容的方法,学术活动的标题和正文被高质量地爬取下来。同时去除了页面内容中的非文本信息(如图像),有效地改善了文本数据的质量。

X={x1,x2,x3,x4,x5,…,xT}

图1 文本预处理流程

2 文本分类

2.1 概念

文本分类的过程实质上是一个集合映射的过程,用形式化的方式[11]可以表示为

f:DC

(1)

式中:D为一组文本数据集合,D={d1,d2,…,dn};C为一组定义好的类别集合,C={c1,c2,…,cm};fCD之间的映射函数,一般被称为分类器[12]。其分类映射模型如图2所示。

图2 文本分类映射模型图

2.2 流程

根据就业市场结果的反馈来调整改革独立学院教育教学,可对高校发展起到良性的促进作用。独立学院由于没有灵活有效的就业市场反馈机制和专业化的反馈渠道,导致学院在人才培养方面存在盲目性,缺乏针对性。另外,高等教育教学内容陈旧、教学方法落后,使毕业生知识结构与人才需求相脱节,求职者缺乏对口就业的竞争力。

高校学术活动文本分类的整体流程如图3所示。

我想这话应该不重。可是我怎么也没想到,袁缺却哭了出来,不停跟我道歉说不该拿走我的伞。他说当时看着保安室的保安上厕所了,外面又下着大雨,于是就把我的伞拿走了。

图3 高校学术活动文本分类整体流程图

3 改进输入的Attention-Based LSTM

通过提取

标签中的内容来提取正文;

3.1 文本数据编码

大量观察高校学术活动语料可以发现,学术活动一般包括题目、主讲人、时间、地点、主办单位、介绍等几个方面的内容。其中主讲人、时间、地点、主办单位属于内容相对固定的实体类型,而题目和介绍属于内容不固定的实体类型。

根据高校学术活动语料的特点,本文采用命名实体识别技术识别学术活动文本中内容相对固定的实体,如:主讲人、时间、地点、主办单位。为了达到降低数据维度的目的,需要为每类实体单独建立一个ID编码库,使每个特定实体都有唯一编码与之相对应。

对于题目和介绍这类内容不固定的实体,在去停用词后将其翻译成五笔字型码。采用这种方法使每一个汉字对应于一个唯一的英文字符串,如例1所示。

例1

将课程的教学与课程负责人的科研工作结合起来,课程的一些内容也是课程负责人科研工作的成果。例如:高级驾驶辅助系统(ADAS)的内容中讲授课程负责人的研究成果——基于立体视觉的障碍物检测方法;表1中的模块8是参观课程负责人建立的汽车电子仿真实验室,并了解实际汽车制造企业如何使用计算机仿真技术进行汽车电子系统的开发与测试。

韩红梅老师毕业于北京师范大学计算机科学学院,教育技术专业硕士研究生,讲师,首都师范大学计算机设计大赛负责人。主要讲授《网站的设计与制作》、《课件的设计与制作》、《计算机教育》、《计算机应用基础》及《通用技术基础》等课程。

随着新课改的不断深入,现代教师就要积极地转变教学理念,有意识地对学生开展素质教育,使学生可以获得真正的进步。而在初中数学教学中,教师通过应用微课,不仅可以提升课堂教学质量,还可以引导学生更好地利用自己的碎片时间,使学生养成良好的自主学习习惯,激发学生对数学的学习兴趣,保证课堂教学质量。

本文设计的文本分类系统采用字符级语言模型作为输入,对预处理中生成的编码和字符进行向量化。主讲人、时间、地点、主办单位这些类别中的每个特定实体都有唯一的ID编码与之相对应,所以为每类数据分配一个维度进行向量表示。经过对大量语料的分析,可以发现题目和介绍这类内容不固定的类别的文本长度平均在300字左右,通过五笔字型码转换,每个中文字符平均转化为3个英文字符。所以需要为此类数据每类分配1000维进行向量表示,多于1000维的截断,少于1000维的在末尾补0。综上所述,文本数据向量为

老福打开文件袋浏览了一下,两份遗嘱的不同之处是,前者是把一半的现金和房产留给罗瑞,另一半两个侄女平分;后者是把全部的现金和房产都留给生前照顾她的保姆小宋。

fjfhf xa stx ftx jgm xxf og gf ux yiu jgm aib dd ip yf tha sm tu ip ip bpf, ftbt yce rfc sy fny og ddm fghg dga pwv tg, yfj jgm, uth ftjb jgm aib dd ip yf tha sm ymc yf dd pfjml qm gmup w. y s yfj rep 《mqq uh r ymc yf gn rmhj wt》、 《yjs wrhe r ymc yf gn rmhj wt》、 《yf tha sm ftbt yce》、 《yf tha sm yid et ad dbm》 ey 《cep et rfc sy ad dbm》 tffu yjs tkgg.

该方法无需对中文分词,所以避免了分词不准确[13]对后续分类工作带来的负面影响。采用该方法的另一个好处是可以将中文数据转化为英文的形式,作为字符级语言模型的输入,英文语料相比中文语料可以得到更好的效果。自然语言处理模型中单词级模型效果很好,但由于中文语料与英文语料在连贯问题上存在着天然的差异,需要进行中文分词才可以将单词级语言模型应用于中文。然而中文分词的准确率影响着最终的分类结果,采用字符级模型可以很好地解决这个问题。由于字符级语言模型比单词级语言模型保留了更多的原始信息,随着神经网络模型的发展以及计算能力的提高,字符级语言模型的效果更好。然而将一个汉字当做一个字符输入字符级语言模型会导致很多问题,实验效果相比英文语料来说并不理想,所以需要先将中文汉字转化为五笔字型码,输入模型计算后再将五笔字型码转换回汉字。

自媒体之所以爆发出如此大的能量,原因在于其传播主体的多样化、平民化和普泛化。随着教育信息化进程的加快,“三通两平台”工程的加快建设,数字校园指日可待,学校德育理应充分利用数字化校园工程平台,借助自媒体,开辟学校德育的新路径,开发出具有现代特色符合德育认知论的德育课程,其中德育微课程是一个非常不错的选择。

3.2 文本数据的向量表示

y yfj tuj wj:

本文中的文本预处理流程如图1所示。

(2)

式中:X为文本总体的输入向量;x1为主讲人分量;x2为时间分量;x3为地点分量;x4为主办单位分量;x5,…,xT分量为题目和介绍部分的内容。

3.2.1 Attention-Based LSTM模型

本文在LSTM模型的基础上结合了注意力模型(Attention Model)思想,Attention Model在产生输出时会产生“注意力区域”来表示下个输出要重点关注输入序列中的哪些部分,根据关注的区域来产生下一个输出。Attention Model是从认知心理学中引入的概念,它的原理是将注意力区域放在重要部分上。它是一种资源分配模型,能够合理分配计算资源,减小甚至忽略非关键因素的影响。基于Attention Model的LSTM模型结构如图4所示。

汽轮发电机在运行过程中,发电机转速为3 000 r/min,风扇叶片与风扇大小环之间承受复杂的交变应力动载荷[1],因此对风扇强度要求较高。美国西屋、日本三菱等国际大公司的无刷励磁机离心式风扇均采用焊接方式[2]。我公司设计的70 MW汽轮发电机励磁机风扇也为焊接结构,其焊接空间狭小,风叶较薄,焊接容易产生变形,加之母材为80 kg级高强钢B780CF,焊后退火会大大降低材料的冲击韧性等性能,因此选用合适的焊接方法、材料及工艺显得尤为重要。

图4 基于Attention Model的LSTM模型结构图

图4中,αki为历史输入的隐藏状态对当前输入的注意力权重;C为语义编码;输入序列X={x1,x2,x3,…,xT}为文章的向量表示,其中xi为1维的输入向量;h1, h2, h3,…, hT为对应于输入序列x1, x2, x3,…, xT的隐藏层状态值;hT为对应于输入xT的隐藏层状态值;最后节点的隐藏层状态值hT为最终的特征向量。注意力权重αki

(3)

fki=νtan h(WhT+Uhi+b)

基于基础地形数据模型,按照1∶10 000地形要素分层原则、属性字段定义标准、要素编码、数据采集要求、地图分幅标准和图外整饰规定,通过制图表达机制,自动生成1∶10 000地形图数据编辑模板,包括内外图廓线、坐标网线、图名、比例尺、坡度尺、邻接图表和图例等内容。

乔十二郎不知他真实意图,只好含糊地抱拳施礼。赵大人最后走到秦铁崖面前,并不施礼,而是背着双手,昂首挺胸正色道:“本官乃刑部尚书赵凤洲。”

(4)

语义编码C由编码时的隐藏向量序列h1,h2,h3,…,hT按权重相加得到:

(5)

最后的特征向量hT即最后节点的隐藏向量:

hT=H(C,hT,xT)

(6)

3.2.2 优化特征向量

Attention-Based LSTM模型输入序列对最终状态的注意力权重分布的计算过程如下:将编码时的隐藏向量序列h1,h2,…,hT按权重αki相加获得语义编码C。LSTM模型的输入即为包含注意力影响因子的语义编码C和最终节点的输入xT,输出为最后的特征向量hT。通过计算输入序列的隐藏向量h1,h2,…,hT对整个文档的注意力分配,使得重点信息的作用更显著,减小甚至忽略非重点信息对于整个语篇的影响。而最后的特征向量hT包含了历史输入的隐藏状态的权重,从而突出了重点信息,优化了特征向量。

3.3 分类器

本文将Attention模型中最后生成的特征向量hT输入Softmax分类器来处理分类问题。Softmax分类器是逻辑回归二分类器泛化到多分类的情形,以多项式分布为模型建模,计算简单,效果显著,适用于本文的高校学术活动文本分类工作。

4 实验设置和结果分析

4.1 实验环境

本实验采用centos 6.5操作系统,i7四核CPU,16 G内存以及NV965 M显卡的GPU运行。编程语言为python2.7,开发平台采用tensorflow1.0版本。

4.2 实验数据集

为验证该文本分类方法,本文采用某高校官方网站上各学院的学术活动文本数据进行实验。实验数据集包含某高校2007-2017年共10 198篇文档进行训练和测试,选取其中的8158篇作为训练语料,2040篇作为测试语料。将数据集的80%用来训练模型,20%用来验证分类算法的性能,表1中列出了实验数据集所包含的3个类别以及对应的训练集数量和测试集数量。

表1 学术活动分类的实验数据表

类别训练集数量/篇测试集数量/篇讲座类3895974会议类2386597公开课1877469

4.3 评价指标

本文的文本分类方法性能的评价指标采用准确率(Precision)、召回率(Recall),采用F值(F-Measure)作为综合评价指标。准确率P和召回率R可能会出现矛盾情况,需要使用F值平衡。评价指标的计算公式如下:

(7)

(8)

(9)

F的值越靠近1,说明PR的平衡性越好。相反,F的值与0越靠近,则2个参数的平衡性越差。

4.4 结果分析

实验分2组进行,第一组比较了采用中文分词的普通输入下3种方法的结果。第一种方法采用传统方法SVM模型进行分类,运用 TF-IDF 计算特征值的权重;第二种方法采用一般的LSTM模型,用LSTM模型提取特征,然后采用Softmax分类器进行分类;第三种方法则采用结合Attention机制的LSTM模型进行分类,在第二种方法的基础上引入了Attention机制。分类结果如表2所示。

表2 普通输入下的学术活动分类结果 %

类别实验方法SVMLSTMAttention⁃BasedLSTMPRFPRFPRF讲座类83 6481 3382 4786 5385 3085 9189 4888 0288 74会议类78 8780 2079 5382 0784 2383 1483 9685 8184 87公开课78 1479 3878 7681 8184 1482 9683 5585 7684 64

由表2中可以看出,基于Attention-Based LSTM模型的学术活动的文本分类方法与传统方法SVM相比,在准确率、召回率和F值方面都有显著的提高。基于Attention-Based LSTM模型的方法与SVM相比优势在于可以学习长期依赖信息,有效地解决了信息冗余问题,有效地防止信息丢失。由于引入了Attention机制,本文提出的分类方法更有效地突出了重点信息,从而可以在特征选择方面取得更好的效果,所以分类结果与一般的LSTM模型相比,准确率、召回率和F值均有一定的提高。

林畲村所在的林畲乡交通四通八达,生态环境优美,更有包括毛泽东旧居在内的红色文化遗址群、中华文化桂花园、苏福茶业生态茶园、石下村仙女峰、知青农庄采摘园等丰富的旅游资源。同时,还拥有爱国主义教育基地、国防教育基地、市级首批研学示范基地、集“医康养”和乡村干部培训功能为一体的乡镇绿色发展学院等,具备良好的旅游发展基础。

由于SVM不宜使用未分词的字符级输入,第二组实验比较了基于一般LSTM模型和基于Attention-Based LSTM模型改进输入前后的分类结果。其中,改进输入的一般LSTM模型为Improved LSTM;改进输入的Attention-Based LSTM模型为Improved Attention-Based LSTM,即本文方法。分类结果如表3和表4所示。

表3 使用LSTM的改进输入前后分类结果 %

类别实验方法LSTMImprovedLSTMPRFPRF讲座类86 5385 3085 9187 9386 1887 05会议类82 0784 2383 1482 8884 4583 66公开课81 8184 1482 9682 3684 0283 18

表4 使用Attention-Based LSTM的改进输入前后分类结果 %

类别实验方法Attention⁃BasedLSTMImprovedAttention⁃BasedLSTM(本文方法)PRFPRF讲座类89 4888 0288 7489 6787 8988 77会议类83 9685 8184 8784 6386 1685 39公开课83 5585 7684 6484 2885 7485 00

从表3中可以看出,Improved LSTM相比于LSTM在准确率、召回率和F值方面都有一定的提高。而表4表明Improved Attention-Based LSTM在准确率、召回率和F值方面的表现要优于Attention-Based LSTM。由表3和表4可以得出结论,本文提出的改进输入下的分类结果要优于普通输入下的分类结果,其原因在于本文提出的改进输入采用了字符级模型,无需中文分词,避免了分词不准确所带来的负面作用,从而有效地降低了数据维度,改善了数据质量,取得了更好的效果。

总之,分析实验结果后可以得出结论:本文提出的基于改进输入的Attention-Based LSTM模型的文本分类方法可以很好地应用于高校学术活动分类工作中,该方法有效地提高了分类的准确率、召回率和F值。

5 结束语

本文基于Attention-Based LSTM特征选择模型,改进模型输入,提出了一种应用于高校学术活动的文本分类方法。该方法使用了字符级语言模型,保留了更多的原始信息,达到了改善文本数据质量,降低数据维度,有效地突出重点信息的目的。相关实验结果表明,改进的Attention-Based LSTM模型在高校学术活动文本分类问题上能获得更好的分类结果。本文在利用Attention-Based LSTM模型进行文本分类时,忽略了分类中数据不平衡的问题。下一步工作重点将放在解决分类中的数据不平衡问题上,设计更优的分类方法,进一步提高学术活动文本分类效率和分类精度。

参考文献:

[1] 王珺.大数据视角下高校智慧校园信息化建设创新研究[J].电脑与电信,2015(5):83-84.

[2] 陈立孚,周宁,李丹.基于机器学习的自动文本分类模型研究[J].现代图书情报技术,2005,21(10):23-27.

[3] Meena M J,Chandran K R.Naive Bayes text classification with positivefeatures selected by statistical method[C]//Proc of International Confe-rence on Autonomic Computing and Communications.IEEE Press,2009:28-33.

[4] Bijalwan V,Kumar V,Kumari P,et al.KNN based machine learning ap-proach for text and document[J].International Journal of Database Theory and Application,2014,7(1):61-70.

[5] 牛强,王志晓,陈岱,等.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895.

[6] Hochreiter S,Bengio Y,Frasconi P.Gradient flow in recurrent nets:the difficulty of learning long term dependencies[M].Wiley-IEEE Press,2001:237-243.

[7] 万圣贤,兰艳艳,郭嘉丰,等.用于文本分类的局部化双向长短时记忆[J].中文信息学报,2017,31(3):62-68.

[8] Quco V,Le llya,Sutskeve,et al.Sequence to sequence learning with neural networks[J].neural information processing systems,2014,4:3104-3112.

[9] 张冲.基于Attention-Based LSTM模型的文本分类技术的研究[D].南京:南京大学,2016.

[10] 薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139.

[11] Williams K.A Frameworik for text categorization [D].Sydney:The University of Sydney,2003.

[12] 李原.中文文本分类中分词和特征选择方法研究[D].长春:吉林大学,2011.

[13] 龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004(03):52-55.

朱星嘉,李红莲,吕学强,周建设,夏红科
《北京信息科技大学学报(自然科学版)》2018年第2期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号