更全的杂志信息网

基于对数似然比的中文文本分类特征选择研究

更新时间:2016-07-05

自动文本分类在垃圾邮件过滤、信息检索、文本挖掘和搜索引擎等领域有重要应用。分类系统主要包括预处理、分类和评估模块,预处理模块包括文本表示、特征选择和模型建立等过程,分类模块主要是利用分类算法对待分类文本进行自动分类,评估模块设计评价指标对分类系统的性能进行评价。1975年Salton提出用向量空间模型描述文本[1]。向量空间模型中,用特征向量来表达文本,特征向量的维数就是特征空间特征词的个数。降低特征空间的维数,可以提高分类器的分类性能。特征选择算法可以划分为过滤式(Filter)、包裹式(Wrapper)和嵌入式(Embedded)三种类型[2]。过滤式特征选择在分类之前使用,目的是过滤对分类贡献值不大或和类别相关度不高的特征,自动文本分类中常用的特征选择多属于过滤式类型。集成特征选择[3]是一种提高特征选择算法稳定性的新技术。文献[4]提出了多种方法度量两个特征选择的输出结果,用来评估特征选择算法的稳定性。文献[5]提出多准则融合特征评估方法来提高分类精度以及特征选择算法的稳定性。

本文进行夜间灯光处理使用的数据主要来源于4个部分:第一部分为DMSP/OLS夜间灯光数据。来自NGDC(隶属美国国家海洋和大气管理局)公开发布的第四版全球DMSP-OLS夜间灯光产品(V4DNLTS),均可在NGDC的官方网站下载。第二部分数据为辐射定标灯光图像,该图像用于饱和及内部校准的参考灯光,来自NGDC另外发布的辐射定标灯光图像系列。第三部分数据为石油/天然气燃烧矢量图层,同样来自NGDC公开的全球数据库。第四部分为国家及其行政区域地图,来自DIVA-GIS项目网站(http://www.diva-gis.org/Data)。

传统的特征选择方法[6]有信息增益(IG)、期望交叉熵(ECE)、互信息(MI)、文本证据权(WET)、文档频率(DF)、χ2统计(CHI)等。IG算法广泛应用于机器学习领域[7],在不降低分类性能的前提下,IG算法可以大规模地移走“无用的”单词。文献[8]在比较朴素贝叶斯和决策树分类算法时使用IG算法来降低单词量,文献[9]在比较支持向量机和其他分类算法时使用IG算法来进行特征选择,文献[10]引入类内分散度和类间集中度等因素对IG算法进行了改进。MI算法从频度指标出发,计算单词在每个类别中的出现频度与它在整个语料库中出现频度的比值,作为该单词对某个类别的分类贡献。MI没有考虑单词的集中度和分散度,使得互信息评估函数倾向于选择低频单词,因此MI表现出的分类性能比较差,文献[11]利用权重因子、修正因子和特征项的位置差异对MI特征选择进行了改进。文献[12]研究表明,当IG和CHI等方法的计算代价太高而变得不可用时,DF算法可以代替它们。CHI特征选择衡量单词w与类别c之间的相关程度,算法基于Pearson χ2检验,用于对变量进行独立性检验。CHI算法和IG算法在文本分类中的性能表现相当,有时候比IG算法性能更优,所以在文本分类系统中应用比较广泛[6]。但特征选择问题中,文档包含单词w和这个文档属于类别c同时发生是稀有事件,此时χ2统计和实际的偏差就会比较大。针对这一问题,提出对数似然比(LLR)特征选择算法。

1 对数似然比特征选择算法

假设有两个随机变量X和Y,X取值为xi(i=1,2,…,r),Y取值为yj(j=1,2,…,c),观察值记为Oi,j,在变量独立的假设下,观察值的期望次数为

其中N是样本大小。用于校验的χ2统计值公式:

对于文本分类特征选择来说,两个随机事件分别是指文档是否包含单词w和这个文档是否隶属于类别c,两个随机事件可能的结果定义为随机变量X和Y,当文档包含单词w时,X取值为1,否则取值为0;当文档属于类别c时,Y取值为1,否则取值为0,此时(2)式可简化为

其中,N11为训练文档中包含单词w的c类文档数,N10为训练文档中包含单词w的非c类文档数,N01为训练文档中不包含单词w的c类文档数,N00为训练文档中不包含单词w的非c类文档数, ||D为训练语料中文档总数。单词对于某类的χ2统计值越高,它与该类之间的相关性越大。

通过中文分词系统对语料库文本进行分词,将常用虚词进行过滤处理,预处理后的单词总数为122 347个,特征选择分别选用IG,ECE,MI,WET,DF,CHI和LLR这7种算法进行。特征空间特征词数量分别取 50,100,200,400,600 和800,针对每个类别计算P、R和F1值,再计算分类系统的平均P、R和F1值。KNN分类算法中,邻居个数K取值为100,表示保留和待分类文档最近的100篇训练文档,7种特征选择算法得到的分类评估结果如表2至表4以及图l,图2所示。

设随机变量X服从参数为n1和p1的二项分布,随机变量Y服从参数为n2和p2的二项分布,概率分布函数分别为

其中,n1和n2分别表示两个重复的贝努利试验的总次数,试验中出现正面的次数记为k1和k2,试验中出现正面的概率记为 p1和p2。两个二项分布的似然函数构造为

其中,参数 p1和p2构成全局参数空间Ω,如果分布的参数 p1和 p2相同,定义集合Ω0={(p1,p2)|p1=p2=p}。构造校验的似然比为

对于分母来说,当时取最大值,对于分子来说,当时取最大值,此时似然比可以写成

TP:实际上为类别c的文档被正确分类为类别c的数量;

称-2logλ为log似然比统计量。当观察值的期望次数Ei,j>5时,log似然比统计量非常接近χ2统计量;当Ei,j≤5时,log似然比统计量更能准确地描述两个稀有事件的相关性。对于非稀有事件,log似然比统计量和χ2统计量相当;对于稀有事件,log似然比统计量和χ2统计量更准确。

特征选择问题中,记对数似然比-2logλ为LLR,它可以用来校验文档包含单词w和这个文档属于类别c这两个事件之间的独立性。具体计算时,仍采用(3)式中的记号。

将结果代入(9)式有:

LLR特征选择算法描述如下:

验证结果:测量小麦茎秆回弹力的测量系统具有较好的灵敏度、准确度,获取数据稳定准确,能够满足小麦茎秆活体测量力学实验,该系统可用于田间小麦活体茎秆力学实验分析研究。此外,选用传感器的不同量程,该系统甚至可以满足其他茎秆植物活体测量的力学实验研究。

(1)计算文档总数N= ||D,D表示训练语料库集合;

老婆这话的确是说到点子上了。谁让咱不占理的,就算她说的再难听的话咱也受着,何况我还得指望她给我做韭菜炒鸡蛋呢。

(2)对集合D中的文档进行分词并过滤停用词构成词典集合W;

TN:实际上为非类别c的文档被正确分类为非类别c的数量;

(4)依据LLR(w)值作为关键字降序排序向量元素;

(2)CHI算法和IG算法。维度较低时,IG好于CHI,随着维度的增加,CHI和IG分类的结果逐渐变好,二者总体性能表现不相上下。当特征选择维度超过200时,二者总体性能趋于稳定。

LLR算法的时间复杂度为O(V×M),其中V是训练语料库分词并过滤停用词后构成的词典集合大小。

2 实验过程和性能分析

2.1 性能评估指标

采用通用的性能评估指标评价分类系统的性能,指标包括查准率(Precision,简记为P)、查全率(Recall,简记为R)和F1测试值[14]

针对多个类别的分类问题,对于某个类别c,引进如下记号:

其中,L(p,k,n)=pk(1-p)n-k,在似然比两边取对数有:

FP:实际上为非类别c的文档被错误分类为类别c的数量;

FN:实际上为类别c的文档被错误分类为非类别c的数量;

“中国-东盟博览会(CHINA-ASEAN Exposition简称CAEXPO),简称东博会,由中国前国务院总理温家宝倡议,由中国和东盟10国经贸主管部门及东盟秘书处共同主办,广西壮族自治区人民政府承办的国家级、国际性经贸交流盛会,每年在广西壮族自治区南宁举办。”自东博会年永久落户广西壮族自治区首府南宁市之后,十多年来其不断促进南宁的政治、经济、文化、金融、信息、旅游等方面的发展。经过十多年的发展,南宁的面目不断焕发新颜,人民的生活水平不断得到提升,同时也吸引着越来越多的人来南宁进行旅游度假。

(3)计算单词w相对于整个训练语料库集合D的LLR值;对于每个单词w∈W;对于每个类别ci∈C,C表示类别集合;利用邻接表T信息计算 N11,N10,N01,N00;利用(10)式计算单词 w和类别ci的LLR(w,ci)值;计算单词w对分类的贡献分值;定义向量容器保存单词w及其LLR(w)值;

庐山我家楼下的六间门面,全租给人家做生意。有一家是开照相馆的,招牌叫“真光”,至今很多人家保存的庐山老照片都有“真光”字样。还有一家面包房,整日弥漫着烤面包的香味,十分诱人,我们家人平时买面包只需记个账,最后归总抵房租。我们最喜欢去王家坡游玩,路好走,风光美,有双瀑,瀑下深潭可游泳,当年王家坡是很出名的景点,上庐山的人都会慕名前往。

[1]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.

查准率P=TP/(TP+FP),被正确分类的类别c文档数量除以被分类为类别c的文档数量,也称为准确率。

查全率R=TP/(TP+FN),被正确分类的类别c文档数量除以实际为类别的文档数量,也称为召回率。

F1=2PR/(P+R),查准率和查全率的调和平均值。

分类器的查准率、查全率和F1值定义为每个类别的查准率、查全率和F1值的平均值。

2.2 实验过程

文本分类一般由预处理、特征选择、向量空间模型建立和分类算法等部分组成[15]

预处理模块主要包括中文分词、建立词典和处理停用词等,使用中科院ICTCLAS中文分词系统对语料库文本进行分词,定义词典数据结构保存词在每篇文档中出现的次数,将常用虚词作为停用词进行过滤。使用传统特征选择和对数似然比特征选择算法计算词典文件中的词对分类贡献函数值,根据设定的特征空间维数对高维特征空间进行降维,构成分类算法需要的特征空间。

构建向量空间模型主要任务是将训练文档表示为特征词的向量形式,特征项的权重作为文档向量的分量,特征项的权重计算使用TF-IDF加权算法。TF表示特征项的词频,IDF称为逆文档频率,TF-IDF算法综合利用了词频和文档频率两种信息,是目前公认的特征加权方法。根据TFIDF算法计算特征项的权重,将训练文档表示成权重作为分量的特征向量并进行归一化,对待分类文档按照类似步骤构建分类文档向量空间模型。

分类算法模块采用K最近邻算法(K-Nearest Neighbor Agorithm)[16]。通过建立向量空间模型,训练文档和待分类文档就表示成了特征词的向量形式,用两个向量之间的距离度量两个文档之间的相似性。在给定新文档后,计算新文档和训练文档集合中每篇文档的相似度,选取训练文档集合中最相似的K篇文档,统计K篇文档中哪个类别出现的次数最多,则将新文档类别标签判定为该类别。

2.3 实验结果和性能分析

实验采用的语料库源于搜狗新闻分类语料库[17]。通过数据整理和清洗,选定36 041篇文档作为训练语料库,分9个类别,测试文档总数6 000篇,训练语料库每个类别的文档总数如表1所示。

表1 训练语料库每个类别的文档总数

训练样本数量5 581 7 819 6 367 2 420 1 514 7 645 3 017 849 829 36 041类别商业新闻房产奥运女性体育娱乐教育旅游合计

当期望次数Ei,j>5时,不管总体属于什么分布,统计量χ2都服从χ2分布。但特征选择问题中,文档包含单词w和这个文档属于类别c同时发生是稀有事件,就有期望次数Ei,j≤5,此时χ2统计和实际的偏差就会比较大,χ2统计就变得不再适用。文献[13]研究表明,稀有事件的发生概率更接近于贝努利分布,文档包含单词w和这个文档属于类别c的统计任务可视为重复的贝努利试验。

表2 7种特征选择算法分类P值结果

特征选择算法MI CHI ECE DF IG WET LLR特征选择维度number取值50 23.90 55.33 62.85 64.54 66.74 68.25 74.52 100 23.90 69.56 75.96 66.74 70.19 69.31 81.01 200 12.79 75.61 77.58 64.60 73.05 74.20 79.44 400 12.80 79.18 76.81 69.38 75.99 75.65 80.27 600 23.92 78.91 74.68 67.40 74.94 71.47 81.17 800 23.92 74.57 75.12 67.41 75.53 68.64 85.63

表3 7种特征选择算法分类R值结果

特征选择算法MI CHI ECE DF IG WET LLR特征选择维度number取值50 13.00 45.90 50.73 51.68 55.42 54.74 67.93 100 13.00 56.10 62.28 56.03 58.00 63.70 71.97 200 12.91 65.13 69.99 55.73 68.30 64.55 76.47 400 13.21 68.37 72.53 59.50 71.63 64.39 76.88 600 13.31 69.65 72.35 57.78 73.00 64.41 79.30 800 13.38 73.44 75.47 56.27 74.82 64.84 80.69

表4 7种特征选择算法分类F1值结果

特征选择算法MI CHI ECE DF IG WET LLR特征选择维度number取值50 18.61 45.13 50.97 54.23 55.75 55.95 68.81 100 18.61 56.69 62.48 58.72 58.14 64.90 74.72 200 27.08 67.21 71.55 57.27 68.89 65.69 76.66 400 29.11 68.76 72.63 61.40 71.65 66.14 76.86 600 19.97 71.04 72.28 59.45 72.57 65.01 78.81 800 20.30 72.78 73.81 57.98 73.69 64.22 81.20

图1 CHI和IG等4种算法分类F1值结果

图2 ECE,WET和DF等5种算法分类F1值结果

从表2至表4以及图l,图2可以看出:

CT、MRI:在评估甲状腺结节良恶性方面,CT和MRI诊断效果不佳,不作为常规检查。Shetty等[22]的研究中,CT(包括平扫及增强扫描)与超声符合率仅为53%。且CT检查容易出现漏诊、误诊。目前,单纯的CT密度值不能区分单纯囊肿、复杂囊性或实性结节,也没有可靠的CT特征可以区分甲状腺结节的良恶性。但对于甲状腺结节较大、声带麻痹及有巨大转移性淋巴结的患者,CT或MRI可协助进行解剖学定位和优化手术方案。为不影响术后的131I显像检查和 131I治疗,CT检查应尽量避免使用含碘造影剂。另外,由于存在大剂量放射线暴露的问题,儿童及青少年应慎行颈部CT检查[5]。

(1)MI算法的效果最差,原因是MI忽略了单词的分散度和集中度,在计算特征词对分类贡献时,仅考虑特征词在每个类别中的出现频度与它在整个语料库中的出现频度的比值,从而使稀有单词具有较大的互信息,这就导致MI算法不是选择高频的有用词,而是选择稀有词作为最佳特征。

安全体系的一道重要保障就是管理机制,管理机制的建立应该严格按照涉密数据网络安全保密的要求,测绘行业涉密计算机安全管理机制的构建主要包括以下几个方面:

(5)定义特征维度取值参数M,用排序后的前M个单词构造特征词集合K。

(3)ECE算法和WET算法。当特征选择维度不超过100时,WET算法的总体性能略高于ECE算法。当特征选择维度超过200时,ECE算法的分类P值和R值都高于WET算法,总体性能也比WET算法强。随着维度的增加,ECE算法的总体性能逐渐变好,WET算法的总体性能逐渐稳定且略有下降。

(4)DF算法。DF算法的分类效果除了比MI算法好以外,在所有其他算法中是最差的。从图中可以看出,DF算法的P值、R值和F1测试值比ECE和WET算法都低,原因是DF算法只用到了特征词的文档频率信息。但对于大规模数据集而言,当其他特征选择算法的计算代价太高而变得不可用时,DF算法可以代替它们。

(5)LLR算法。无论特征选择维度如何变化,LLR算法分类结果都比较稳定,分类P值、R值和F1测试值都比其他特征选择算法要高,且特征选择维度取值增加时,LLR算法的三个评估指标曲线有进一步上升的趋势。

3 结束语

通过引入对数似然比统计量,提出对数似然比中文文本分类特征选择算法。针对MI算法评估函数过分倾向于低频单词的缺陷,LLR算法计算低频单词的贡献更准确;针对CHI算法中,低频单词导致的稀有事件使得CHI统计结果会出现偏差,LLR算法消除了这种偏差,计算低频单词对分类的正面贡献更准确,消除了低频单词对分类的噪音,提高了分类系统的总体分类性能,且不受特征空间维数变化的影响,是一种较好的特征选择方法。

需要进一步研究的问题:针对现有特征选择算法的不足进行改进,以提高分类算法性能;针对特征选择算法的稳定性问题,对集成特征选择方法进行研究;对贝叶斯分类和支持向量机分类算法进行研究,通过不同的特征选择算法,融合多种分类方法进行集成学习,最终构建一个分类效果良好的文本分类系统。

a)硬件结构部分。单片机应用系统一般包括硬件设计和软件设计两大部分。硬件是基础,软件是灵魂。没有硬件基础,无从谈软件编程。硬件部分一般包括单片机引脚及功能、存储器配置、特殊功能存储器配置、定时器计数器、中断系统、I/O口等,这些内容教材一般都包括。但从近年来学生学习此门课程的效果来看,可以对教学内容进行增添和删除,保留必要部分,去除繁琐用处不大的部分。

参考文献:

本文设计的机器人化端口打磨装备具有易便携、体积小、自动化程度高、适应多种管径的特点[8]。该装备通过机械式夹紧方式使整机沿端口作周向转动,需要具有一定的预紧力。为了验证该打磨机器人的工作可靠性,制作了一台样机并进行现场试验。在施加预紧力的作用下,配合主动轮和从动轮将打磨机器人固定在管道上[9-10],开启驱动电机和伺服电机进行打磨试验[8,11]。

[2]SUN Z H,BEBIS G,Miller R.Object detection using feature subset selection[J].Pattern Recognition,2004,37(11):2165-2176.

[3]HAURY A C,GESTRAUD P,VERT J P.The influence of feature selection methods on accuracy,stability and interpretability of molecular signatures[J].PLoS One,2011,6(12):e28210.

[4]SOMOL P,NOVOVICOVA J.Evaluating stability and comparing output of feature selectors that optimize feature subset cardinality[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2010,32(11):1921-1939.

[5]FENG Y,MAO K Z.Robust feature selection for microarray data based on multicriterion fusion[J].ACM Transactions on Computational Biology and Bioinformatics,2011,8(4):1080-1092.

[6]尚文倩.文本分类及其相关技术研究[D].北京:北京交通大学,2007.

[7]MITEHELL T.Machine learning[M].NewYork:McGraw-Hill,1997:292-294.

[8]LEWIS D D,RINGUETTE M.A Comparison of two learning algorithms for text categorization[C].In Proceedings of the Third Annual Symposium on Document Analysis and Information Retrieval.Las Vegas,USA,1994:81-93.

在判定中小零售企业电子商务商业运营模式框架基本组成结构后,要结合其实际要求和市场环境建立健全完整的后续管理机制,从根本上提升企业的行业竞争力,也为管理工作的顺利开展奠定基础。

[9]JOACHIMS T.Text categorization with support vector machines:learning with many relevant features[C].In ECML 1998,Chemnitz,German,1998:137-142.

[10]郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122,127.

[11]刘海峰,陈琦,张以皓.一种基于互信息的改进文本特征选择[J].计算机工程与应用,2012,48(25):1-4,97.

[12]YANG YM,PEDERSEN JO.A comparative study on feature selection in text categorization[C].Proceeding of the Fourteenth International Conference on Machine Learning(ICML97).San Francisco,USA:Morgan Kaufmann Publishers,1997:412-420.

[13]TED Dunning.Accurate methods for the statistics of surprise and coincidence[J].Computational Linguistics,1993,19(1):61-74.

[14]LIU Tao,LIU Shengping,CHEN Zheng.An evaluation on feature selection for text clustering[C].Proceedings of the 20th International Conference on Machine Learning,Washington DC,USA,2003:488-495.

张满春料想那帮日本兵吃饱喝足后,是不会放过沈家大院的女人们的,他最担心的当是沈小小。他一想到沈小小将被这群野蛮无德的日本兵扒光了衣服,他的小肚子就胀疼难忍。张满春一时想不出好的办法来。大院里都是日本兵,加之四周是高高的围墙,沈小小这下怎么也逃不出沈家大院了。张满春就在心里骂沈老七,你狗日的平时信奉有钱能使鬼推磨,这回磨把你给推了吧。

[15]梁伍七,李斌,许磊.基于类别的CHI特征选择方法[J].安徽广播电视大学学报,2015(3):124-128.

[16]COVER T M,HART P E.Nearest neighbor pattern classification[J].IEEE Transactions on Information Theory,1967,13(1):21-27.

㉜M.Sebastiano Erizzo.Discorso sopra le medaglie degli antichi:con la dichi aratione delle monete consulari e delle medaglie degli Imperadori Romani,Venice (Varisco&Paganini),1559;Trattato di messer Sebastiano Erizzo,dell'istrumento et via inventeur de gli antichi,Venice,1554.

[17]中文分类语料库[EB/OL].(2012-03-21)[2015-12-04].http://www.sogou.com/labs/dl/tce.html.

(1)研究了不同设计阶段数据需要的内容,建立了基于BIM技术的PKPM系列绿色建筑设计软件数据模型,在软件研发中利用基于BIM技术的设计理念,达到了数据共享、提高效率的目的。

梁伍七,李斌,许磊,江克勤
《安庆师范大学学报(自然科学版)》2018年第1期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号