更全的杂志信息网

集成学习方法研究

更新时间:2009-03-28

随着移动互联网以及物联网技术的不断深入应用,各类信息数据以极快速度产生和累积,大数据时代已经来临[1]。大数据备受关注,核心在于挖掘出新的有价值信息[2]。数据挖掘是从已知数据集合中发现各种模型、概要和导出值的过程和方法,也是从大数据中挖掘价值信息的核心手段[3]

集成学习(Ensemble Learning)是一种重要的数据挖掘方法,主要利用多个学习器的集成来解决问题,能够显著提高学习系统的泛化能力[4]。Elder在文献[5]中研究表明分类器集成技术优于简单的平均法和单一模型,且在近年来多届KDD和CIKM Cup中取得优秀成绩。集成学习也被认为是未来机器学习的重要研究方向之一,是提高学习精度的重要手段[6]

在介绍集成学习的基本概念基础上,研究了当前集成学习方法的评价标准,分析了常用的分类器集成学习算法和结果整合集成方法,对集成学习方法有综合充分了解。

在ATLAS后处理器中,如图8所示,选择左侧模型树中的基本结果—Displacement—U0,并双击,然后选择工具栏中的“光滑云图”即可显示X方向位移云图,对应的V0为y方向位移、W0为Z方向位移。应力结果查看同位移的查看方法。

1 集成学习的概念

集成学习是数据挖掘算法的一种,本质上是将多个弱分类器通过有效融合集成为一个强分类器,提高分类精度。数据挖掘包括分类,聚类,关联等多种方法[7],集成学习主要针对分类和回归作为基分类器,两者区别主要在于预测输出值是否为离散值,本文中主要针对分类器的集成方法进行研究。

分类器是一种利用已知的观察数据(测试数据或实验数据)构建的分类模型,并以此来预测未知类别的对象所属类别。常见的基分类器包括线性回归,决策树,基于关联规则的分类,贝叶斯信念网络,向后传播,支持向量机(SVM)等方法,其中包括ID3及其改进算法C4.5,分类回归树CART,基于频繁模式的CBA、CMAR、CPAR 等算法[8,9]

集成学习是建立基分类器的基础上进行有效融合集成形成强分类器,其中包括两个主要工作,一是基分类器的构建,二是多分类器的融合集成方法。集成学习算法的一般实现框架如图1所示。

乐山市全境根据其地貌成因形态可分为三大类八亚类,即侵蚀构造地形(高山、中山、低山)、构造剥蚀地形(包括深切割丘陵、中切割丘陵、浅切割丘陵、)、侵蚀堆积地形(包括冲积扇平原、河流及阶地等)。各类地貌亚类及单元(34个)分布面积见表2。

3.2加湿器应使用纯净水加湿器中使用的水应尽量为纯净水,避免使用井水与自来水。井水与自来水中各类钙、镁等矿物质含量高,不仅可吸附病毒、细菌,还可能对超敏体质的人造成过敏,而这种过敏源极为隐蔽,使人不易察觉。纯净水挥发后为单纯的H 2 O气体分子,不会成为孕妇的过敏源。

  

图1 构建集成学习方法的一般框架

集成学习的两个主要工作一般可以划分到训练和检验两个阶段。训练阶段是训练形成集成模型,主要针对训练样本数据集,划分多个弱分类器按照一定的融合集成规则形成一个强分类器;检验阶段是验证调整集成模型,主要针对测试样本数据集,对多个弱分类器的预测结果按照一定的集成整合规则形成集成预测结果。其中,多分类器融合的集成模型是我们研究的重点。

集成学习方法按照基分类器的类型异同可以分为同态集成学习和异态集成学习,同态集成学习包括决策树集成和人工神经网络集成等,包括同态模型的集成包括统一融合、线性融合和堆融合方式,stacking算法是堆融合的典型方法,异态集成学习包括叠加法(stacking算法)和元学习法(Meta Learning)[10];根据基分类器的生成顺序可以分为串行组合,并行组合和混合拓扑组合,经典的集成学习方法Boosting以及其改进的AdaBoosting、GDBT(Gradient Boosting Decision Tree)都是串行组合[11],Bagging以及在此基础上的随机森林算法则是并行组合[12],两阶段集成学习TPEL是一种混合拓扑组合[13];根据基分类器的学习基础分为基于数据和基于属性的集成方法,其中Bagging、AdaBoosting都是基于数据的集成方法[14]

为了控制集成学习模型复杂度,通过动态权重降低了高精度分类样本的权重,有效控制了最终分类器的样本数量,从而控制了集成学习模型复杂度。

经过几十年的发展,郑州市已初步建成包括灌溉、除涝等的一整套农田水利工程和管理体系,为农业与经济社会发展奠定了坚实基础,在粮食稳产增产中发挥了巨大作用。截至2011年年底,全市有效灌溉面积19.6万 hm2,占耕地面积的63.3%;旱涝保收田面积16.7万hm2,占有效灌溉面积的85.3%;节水灌溉工程面积11.8万hm2,占有效灌溉面积的60.3%。郑州市农田水利建设虽取得了一定成就,但由于各种因素的影响,当前还存在着不少问题,主要表现在农田水利投入不足、工程建设标准低、老化失修、管护机制不健全、用水效率低、农田水利基础薄弱、不适应现代农业发展要求等,与实现农田水利现代化尚存在着较大的差距。

2 集成学习的评价标准

Dietterich在文献[4]中从统计、计算和表示三个层面阐述了集成学习的相对于单一学习器的优越性。本节重点分析集成学习模型的预测误差计算方法,并分析有效控制误差的途径。

对于单一分类器,其性能评价指标主要有训练精度、查准率、查全率、F-Measure值等[15],集成学习方法通过对基分类器(性能较弱)通过集成融合形成强分类器,假设n个相互独立基分类器的查准率为p,那么集成学习模型的准确度为:

 

其中,第1到第i个基分类器作为样本错误检验模型。根据公式1可以发现,集成学习准确率pensemble提升的基本条件在于:一是各基分类器的相关性低;二是各基分类器的查准率p高于0.5;三是有一定数量的基分类器。因此,提升基分类器的差异化有助于提升集成学习的预测精度(MSE,Mean Squared Error)[16]

Hansen和Salamon提出了神经网络集成方法(Neural Network Ensemble)[30]。通过使用多个基础神经网络作为基分类器对同一问题进行学习,集成分类器的输出值得到精确化的预测值。其关键点在于一是使用神经网络作为基分类器,二是对基分类器权重采用反向传播算法训练。当神经网络为单隐藏层神经网络时,构建极限学习机,并基于此开展极限学习机集成方法[31]

因此,对于集成学习方法,一般采用偏差-方差分解分析学习方法的误差[17]。假设存在我们需要预测的目标函数为:

 

其中,ε为数据对象的噪声数据误差,是系统自带误差,与预测模型选择无关,一般认为服从正态分布,即 ε ~ N(0,σ2)。

对集成学习的强分类器对目标数据集的评价拟合为:

目前全国使用的统编版初中语文教材采取了“人文精神”和“语文素养”两条线索相结合的方式编排,“人文精神”重在选文的思想性,以文化人;“语文素养”重在培养学生听、说、读、写等能力。如何使用好这一教材,众多教育工作者都提出了自己的看法,笔者也有自己的一点感触,认为新教材的使用应注意以下几点:

 

Boosting算法问题在于更多关注不能正确分类样本数据,对于边界样本会导致权重失衡,产生“退化问题”。在Boosting基础上使用指数权重产生用于二值分类的AdaBoost算法[28,29]。

那么针对数据集D的某一个x=xi,那么在该点的误差即为:

 

可以发现集成误差由三部分组成,第一个为系统误差;第二个为系统的平方偏差,是模型预测值与真实值的差值平方,由于预测(分类)系统中真实值无法获取,该误差是一个有用的理论概念;第三个是方差,体现了各基分类器预测值在均值周围的波动程度。

为提高预测(分类)精度,降低误差,集成学习一般在降低平方偏差和模型方差两个方面开展工作。但是,一般来说,简单模型具有高偏差和低方差,而复杂模型倾向于具有低偏差和高方差[18]

为了控制集成学习模型复杂度,一般采用对分类决策树的属性进行筛选的方法,对不重要、不相关的分支进行裁剪。

随着神经网络等新机器学习方法的发展,以及着眼Bagging和Boosting系列算法的改进提升,产生了很多新的具有代表性的集成学习方法,主要算法包括神经网络集成算法,随机森林算法,选择性集成算法等。

  

图2 预测误差(MSE)-模型复杂度关系图

根据公式1可以知道随着模型复杂度的提升,即弱分类器数量增加,集成模型的准确度即系统的偏差会降低,但同时系统间基分类器预测值间的方差将会增大,导致系统的预测误差会提升。在实际集成学习中,模型复杂度过高会导致过拟化,即模型在训练样本中有很好预测精度,在应用数据或训练样本中表现一般,如果模型复杂度过低则会导致欠拟化[20]。图3分析了集成模型在训练样本和测试样本中的预测误差。

集成学习为了降低系统的预测误差,提高预测精度,增强泛化能力,一般在控制集成模型复杂度上下功夫,主要采用正则化的方法[21]。该方法采用隐形或显性的考虑数据的有限性、不完整性和局限性,借此来构建模型的方差,借鉴了数学中解决求解反问题中的不适定问题的模型修正方法[22]

  

图3 预测误差-集成复杂度在训练和测试样本中区别

因此,为提高集成学习预测精度,集成学习方法在集成多个弱分类器基础上,主要从控制集成模型复杂度和提升基分类器的差异化两个方面开展研究工作。

对于控制集成模型复杂度,在分类问题中,通过属性选择或剪枝方法控制分类树的规模,典型方法如CART,同时控制基分类器数量,提升基分类器间的差异化;对于回归问题,则是通过控制参数参与度,即各参数系统比重来实现,常见方法包括约束函数,鲁棒损失函数等,典型算法如前向阶梯线性回归算法;对于提升基分类器的差异化,一般通过对训练数据集的重采样,参数设置,特征空间和引入随机扰动四个方面开展工作。

3 典型集成学习方法

集成学习方法源于1989年Kearns提出的PAC(Probably Approximately Correct)学习模型,提出了弱学习器和强学习器,进而构建了一个多项式级的学习器 [23]。集成学习方法发展至今,形成了Breiman提出的Bagging(Bootstrap Aggregating)算法[24]和Robert提出的算法[25]以及在Boosting基础上 Freund和 Schapire提出了 AdaBoost(Adaptive Boosting)算法[26]。Bagging和 Boosting 算法都是基于训练数据集的重采样方法,Bagging算法是并行集成,而Boosting是串行提升,都是使用输入数据的不同训练子集和同样的学习方法生成不同模型[27]

3.1 Bagging算法

Bagging算法是通过引导程序使用一个训练集的多个版本,即放回抽样,多每一个数据集都来训练一个不同的模型,在对训练模型通过整合输出形成一个最终的预测结果。基本算法如下。

 

集成预测结果hensemble(x)=f(hi(x))=y其中,y为集成预测结果,是对各基分类器Li预测结果hi(x)的整合,整合函数为f(x)。基分类器的个数N与分类种数呈正比关系。每一个Li是对训练样本T进行放回采样数据集的采用同一训练模型的基分类器。

以基分类器为决策树的集成学习为例,以集成学习的决策树数量M表征集成学习的复杂度,可以发现集成模型的预测误差与系统复杂度,以集成简单决策树数量M拟合,其相关关系如图2所示[19]

为了提升集成模型的差异化,由于理论上每一个重抽样训练样本数据集Ti中有较高的重复率,所以Bagging算法的基分类器L一般采用不稳定算法,即调整训练样本部分的数据后,分类器Li变化较大,从而提升各基分类器的差异性。

3.2 Boosting算法

Boosting算法也是一种基于数据集重抽样算法,与Bagging算法主要区别在于需要动态调整训练样本中各数据权重,每一次迭代增加不能正确学习样本权重,降低能正确学习样本权重,从而提升在整个训练样本数据集上的学习正确率。基本算法如下。

 
 

集成预测结果hensemble(x)=f(hi(x))=y与Bagging算法不同,Boosting算法第一次构建基分类器给每一个训练数据样本赋予动态权重,加强分类错误样本权重。在下一次基分类器采用新的样本权重进行随机抽样构建新的基分类器并以此类推构建多个基分类器,并形成一个精度较高的强分类器。

(4)招标文件。招标文件的内容条款设置,既决定招标的公平性,又能筛选掉资质经验不满足工程建设的施工单位和设备供应商。所以应重视各部分条款内容设置和分数占比,同时可委托第三方的法律咨询,保证招标文件的合法合规合理。

为了提升集成模型的差异化,Boosting算法是一个逐步递进的方法,每一个分类器都是前一个的通过调整样本权重的改进模型。

其中为对某一具体数据的拟合值。

3.3 其他集成算法

②见 Jerker Hellstrom.China’s Emerging Role in Africa.FQI 2009:20.

同时,通过基分类器数量的提升,集成学习的查准率达到较高水平。当基分类器数量较大时能够在样本训练数据集上得到很高的查准率,但是会造成过拟化,降低集成模型泛化水平,即在测试样本数据上反而有较低的查准率。

2001年Breiman提出了一种用于分类预测的集成学习算法—随机森林(Random forests)[32]。随机森林算法集成多个从训练样本数据中重抽样非裁剪决策树,决策树构建中类似C4.5决策树构建方法根据增益最大挑选分裂属性,最后对每个决策树进行同权重投票实现预测结果集成。

Bagging,Boosting等算法都是对所有基分类器进行集成,文献[33]发现选择部分基分类器进行集成能够有效控制过拟化,提升集成模型泛化能力。2002年,我国学者周志华提出了“选择性集成”概念[34],将训练得到的基分类器中精度不高,误差过大的分类器从集成模型中剔除,只选择在训练样本中表现较好的基分类器进行集成。

4 分类结果的集成整合方法

典型集成学习描述了如何通过训练样本数据得到基分类器,本节关注集成学习的检验阶段,即如何将各基分类器的预测结果进行有效整合集成形成集成学习预测结果并进行检验。基分类器的整合方式可以分为三个层次,即决策层次输出,排序层次输出和度量层次输出[35]。对于基分类器结果集成属于决策层次集成,一般包括两大类集成方法,即投票方法(Voting)和叠加方法(Stacking)[36]

4.1 投票方法

投票方法是对各基分类器的分类结果按照某种原则进行投票表决,得到集成预测分类结果,投票方法可分为普通投票和贝叶斯投票两种。

1) 扩散段下游、导流片①D下游和导流片①B附近产生流动分离,整流蜂窝器能有效发挥整流作用,湍流强度减弱;

总之,作为国家战略的人工智能,正在作为基础设施逐渐与产业融合,加速经济结构优化升级,对人们的生产和生活方式产生深远的影响。□

普通投票方法可以分为均等投票和赋权投票两类,赋权投票是给投票专家赋予不同权重,均等投票则是以相同权重进行投票。根据应用背景需求,按投票原则又可以分为一票否决,一致表决,大数原则和阀值表决等[35]。对于回归问题,可以通过平均值,加权求和,中位数,最大数等方式进行整合[37]。

合伙形式的评估机构,应当有两名以上评估师;其合伙人三分之二以上应当是具有三年以上从业经历且最近三年内未受停止从业处罚的评估师。

贝叶斯投票是根据每个基分类器的历史分类表现通过贝叶斯定理赋予不同的权重,根据各基分类器的权重进行投票[38]。由于不能覆盖各基分类器的所有样本空间,且不能正确给出各基分类器的先验概率,贝叶斯投票的效能不及普通投票方式[39]

2)住房和城乡住建部官网htt p://www.mohur d.gov.cn/czj s/index.html;

4.2 叠加方法

Stacking算法是1992年Worlpert提出的stacked Generalization的学习模型,对基分类器的学习结果进行再集成得到集成模型预测结果[40]。采用Leave-One-Out的交叉验证(CV,Cross Validation)方法训练基分类器,将各基分类器的训练结果作为强分类器的输入训练实例,训练学习得到最终预测结果。

根据《自卸车液压系统技术条件》规定,液压油温不得超过80 ℃。但在夏季环境温度较高,铰接式自卸车液压系统多次出现油温报警,液压系统温度最高时甚至达到了100 ℃以上。因此有必要分析研究铰接式自卸车在环境温度40 ℃,油液温度30 ℃条件下的热平衡特性。

Stacking算法既能集成各基分类器的训练结果,也能组合各种可能决定分类的相关信息,因此普遍认为其性能优于贝叶斯投票方法[41]

5 总结

集成学习被认为是当前数据挖掘、机器学习中提升预测精度的重要方法。在介绍集成学习概念、评价标准的基础上,将集成学习划分为基分类器的构建和集成两个阶段,从偏差-方差分解角度,分析集成学习的预测精度主要是通过控制集成模型复杂度和各基分类器差异度实现,研究讨论了集成学习的模型构建阶段的经典算法Bagging、Boosting等,同时分析研究了分类结果集成的普通投票和Stacking方法。对于掌握集成学习的一般步骤、精度控制、经典方法以及结果集成整合等有一定帮助。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146—169.

[2]邬贺铨.大数据时代的机遇与挑战[J].求是,2013(4):47—49.

[3]KANTARDZIC M.Data mining:concepts,models,and algorithms[M].2nd ed.Wiley Published,2011:4.

[4]ZHANG L,SUGANTHAN P N.Oblique decision tree ensemble via multisurface proximal support vector machine [J].IEEE Trans.Cybern,2014:2168—2267.

[5]ELDER J F,LEE S S.Bundling heterogeneous classifiers with advisor perceptrons[R].University of Idaho Technical Report,1997:1.

[6]THOMAS G D.Machine learning research:four current directions[J].AI Magazine,1997,18(4):97.

[7]秦莉花,李晟,陈晓阳,等.数据挖掘的分类、工具及模型的概述[J].现代计算机,2013(4):17—21.

[8]孔玉婷.数据挖掘中的分类算法研究与应用[D].鞍山:辽宁科技大学,2015.

[9]WU Xing-dong,VIPIN K.The top ten algorithms in data mining[M].CRC Press,2012.

[10]张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399—1408.

[11]蒋艳凰,杨学军.多层组合分类器研究[J].计算机工程与科学.2004,26(6):67—70.

[12]杨利英,覃征,王向华.多分类器融合实现机型识别[J].计算机工程与应用,2004,40(15):10—12.

[13]李文斌,刘椿年,钟宁.基于两阶段集成学习的分类器集成[J].北京工业大学学报,2010,36(3):4140—419.

[14]张沧生,崔丽娟,杨刚,等.集成学习算法的比较研究[J].河北大学学报:自然科学版,2007,27(5):551—554.

[15]李凯,崔丽娟.集成学习算法的差异性及性能比较[J].计算机工程,2008,34(6):35—38.

[16]ROKACH L.Ensemble-based classifiers[J].Artificial Intelligence Review,2010,33(1-2):1—39.

[17]HASTIE T,TIBSHIRANI R,FRIEDMAN J.The elements of statistical learning[M].Springer Verlag,New Yok:2007.

[18]YUK L S,PREM M,RAYMOND J M.Combining bias and variance reduction techniques for regression trees[C].Processing of the 16th European Conference on Machine Learning(ECML),Porto Portugal:2005:741—749.

[19]SENI G,ELDER J.Ensemble methods in data mining:improving accuracy through combining predicitions[M].Morgan and Claypool Publishers,2010.

[20]HASTIE H,TIBSHIRANI R,FRIEDMAN J.The elements of statistical learning data mining,inference and prediction[M].Spinger,2001.

[21]ROSSET S.Topics in regularization and boosting[D].Statistics:Stanford University:2003.

[22]吴颉尔.正则化方法及其在模型修正中的应用[D].南京:南京航空航天大学:2007.

[23]KEARNS M,VALIANT L G.Cryptographic limitations on learning boolean formulae and finite automata [J].Proceedings of the 21st Annual ACM Symposium on Theory of Computing,New York,1989:433—444.

[24]BREIMAN L.Bagging predictors[J].Machine Learning,1996,24(2):123—140.

[25]ROBERT E,SCHAPIRE R E.The strength of weak learnability[J].Machine Learning,1990,5(2):197—227.

[26]FREUND Y,SCHAPIRE R E.A decision-theoretic generalization of on-line learning and an application to boosting[C].Barcelona:Proceedings of the 2nd European Conference on Computational Learning Theory,1995:23—37.

[27]GOPIKA D,AZHAGUSUNDARN B.An analysis on ensemble methods in classification tasks[J].International Journal of Advanced Research in Computer and Communication Engineering,2014,3(7):7423—7427.

[28]LLOYD J R.GEFCom 2012 hierarchical load forecasting:gradient boosting machines and Gaussian processes[J]International Journal of Forecasting,2014,30(2):369—374.

[29]KANKANALA P,DAS S,PAHWA A.Adaboost+:an ensemblelearning approach for estimating weather-related outages in distribution systems[J].IEEE Trans.Power Syst,2014,29(1):359—367.

[30]CIRES D,MEIER U,MASCI J,et al.Multi-column deep neural network for traffic sign classification [J].Neural Networks,2012(32):333—338.

[31]HUANG G B,ZHU Q Y,SIEW C K.Extreme learning machine:theory and applications[J].Neuro Computing,2006,70(1):489—501.

[32]BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5—32.

[33]DORIGO M.Optimization,learning and natural algorithms[D].Milan,Italy:Dipartimento di Elettronica,Politecnio di Milano,1992.

[34]ZHOU Z H,WU J X.Ensembling neural networks:many could be better than all[J].Artificial Intelligence,2002,137(1-2):239—263.

[35]XU L,KRZYZAK A,SUEN C Y.Methods of combining multiple classifiers and their applications to handwriting recognition[J].IEEE Transactions on System,Man and Cybernetics,1992,22(3):418—435.

[36]SCHERER R,Multiple fuzzy classification systems[M].Springer Publishing Company,Incorporated,2014.

[37]AL-ANI A,DERICHE M.A new technique for combining multiple classifiers using the dumpsters-shafer theory of evidence[J].Journal of Artificial Intelligence Research,2002(17):333—361.

[38]MAO Fei-qiao,QI De-yu,LIAO Qi-liang,et al.Adaptive linkage:an interface level adaptable component development technique[C].Proceedings of the 6th International Conference on Control and Automation(ICCA’07),2007:233—240.

[39]张燕生,白晓颖,蒋长征.一种基于改进的贝叶斯投票算法的服务评估技术[J].计算机科学,2008,35(4):255—259.

[40]WOLPERT D H.Stacked generalization [J].Neural Networks,1992,5(2):241—259.

[41]李珩,朱靖波,姚天.基于Stacking算法的组合分类器及其应用于中文组块分析[J].计算机研究与发展,2005,42(5):844—848.

 
周钢,郭福亮
《计算技术与自动化》2018年第04期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号