更全的杂志信息网

基于改进网格搜索算法的随机森林参数优化

更新时间:2009-03-28

1 引言

随机森林算法是由Breiman于2001年提出的一种集成学习算法,并在文献[1]用强大数定理证明了其收敛性。其后,国内外学者相继对其进行了后续研究。在国外,Kulkarni等通过将维度分为两部分,一定程度上提高了正确率[2-3]。Oshiro等证明了随机森林的决策树数量存在一个临界值使其性能达到最优[4]。Bernard等研究了随机森林强度与相关性的关系,内在分析了随机森林的原理[5]。在国内,马景义等综合了Adaboost算法和随机森林算法的优势,提出了拟自适应分类随机森林算法[6]。刘迎春等基于随机森林算法,设计了互联网行业的大数据流式应用场景中的流式计算方法[7]

随机森林是一种有效的机器学习方法,可应用于分类问题、回归问题以及特征选择问题[8]。随机森林是由决策树作为基分类器的集成学习模型,结合了Bagging和随机子空间理论。随机森林算法引入了两个随机量:一是从训练集中有放回地随机抽取样本数据组成自助训练集;二是在构建决策树的过程中随机选择特征属性作为候选分裂属性。正是由于两个随机量的引入,随机森林对噪声数据不敏感,克服了过拟合的问题。由于随机森林具有良好的性能,因此在诸多领域得到了广泛的应用。但到目前为止,对随机森林算法中决策树数量k、候选分裂属性数mtry等参数进行优化选择的研究还较少,通常都是通过经验选择参数,在文献[1]中,Breiman选取mtry为1和「lb M +1」进行了试验,M为训练样本集特征维数。文献[9-10]选择mtry=进行试验,Panov等[11]则对 mtry=「lb M +1」和mtry=分别进行了试验。文献[12]研究了随机森林算法中决策树数量对其性能的影响,并指出对于不同的具体对象而言,使其性能达到最优时的k值是不同的。通过经验选择随机森林算法的参数,往往得不到性能最优的随机森林。

本文针对上述问题,采用改进的网格搜索算法,基于袋外数据估计,对随机森林算法的决策树数量和候选分裂属性数两个参数进行优化,该方法能够克服交叉验证的缺点,选取到参数最优值。UCI数据集的仿真实验结果表明,利用本文提出的方法能够使随机森林分类性能达到最优。

2 随机森林原理

随机森林算法是由多个决策树{h(x,Θk),k=1,2,…}组成的集成算法,其中Θk为相互独立且同分布的随机变量,决定自助训练集的随机抽取和候选分裂属性的随机选择,即决定决策树的生成。对于分类问题,采用简单多数投票法的结果作为随机森林的输出;对于回归问题,根据单棵树输出结果的简单平均作为随机森林的输出[13]

随机森林的构建过程如图1所示[14]

环外碳碳双键(-CH=CH2)因波罗的海琥珀不特征,多米尼加和缅甸、辽宁抚顺的两个峰形标准且明显分布在1000cm-1两侧,而墨西哥琥珀在此处的吸收峰较弱不易判断,可配合其他吸收峰位进行产地区分。

  

图1 随机森林的构建过程

(四)赋予教师话语权。教师的话语权是其自身主体性和价值的重要体现,话语权一旦丢失,将影响到教师的教学心情和教学水平。首先应通过自我发展意识觉醒、自我发展能力的提升强化小学英语教师的话语意识。教师只有将自己的实际能力提升了,才能有更多的话语权。其次,学校应给予教师教学方法改革方面的支持,只要教师的教学方法先进科学,学校就应给予教师支持,让其才华得到施展,促进学生的健康发展。再次,教师要做课程改革的提议者,参与到课程改革的决策中,为课程改革的发展与实施贡献自己的聪明才智。以上这些话语权的实现,除了教师自身要具备较好的素质外,还需要教育相关部门的支持。

(2)以L(B)k为训练数据,创建决策树Tk(x)。对每个节点的分裂,从M个特征属性中随机选取mtry个作为候选分裂属性,根据基尼指数从mtry个特征属性中选择一个进行分裂,重复上述过程,直至这棵树能够准确分类训练数据,或所有特征属性均已被使用过。在构建决策树的过程中,本文采用CART算法分裂节点,即选用基尼指数最小的分裂方式进行分裂。

选用基尼指数进行分裂时,如果一个训练样本集合T含有m个不同类别的样本,那么该样本集合的基尼指数为[8]

 

本文选取了UCI数据库中的11个数据集,表1对数据集的样本数、特征维数、类别数做出了简要描述。

 

在上述构建随机森林的过程中,第一步利用统计学中的重采样技术随机抽取k个自助训练集时,对于每次抽取大约有36.8%的训练样本未被抽中,这些未被抽中的训练样本称为袋外数据。Breiman在文献[1]中指出,利用袋外数据可以对决策树的强度和决策树之间的相关性进行估计。袋外数据估计的决策树的泛化误差与使用和训练集相同大小的测试集的泛化误差相同[15],因此可以利用袋外数据对本文提出的方法进行泛化误差估计。

群文干部是群众美术文化活动的倡导者、策划者、组织者,对群众美术文化的发展速度和水平起着决定性的作用。因此,提高群众美术辅导工作人员自身的专业素质是群众美术辅导工作的动力源泉。首先,美术辅导人员应该有高尚的道德情操,把真善美贯穿于美术辅导的始终;其次,美术辅导人员应该有过硬的专业技能,潜心研究群众美术工作的深刻内涵;最后,群众美术辅导实质上是艺术的辅导,不应刻板,应重视创新。

3 基于改进网格搜索的随机森林参数优化

网格搜索是指将变量区域网格化,遍历所有网格点,求解满足约束函数的目标函数值,最终比较选择出最优点。遍历网格上所有点需要大量训练时间,为了提高训练速度,本文提出了一种基于改进的网格搜索的随机森林参数优化算法。首先,在较大范围内用大步长划分网格,进行粗搜索选择出最优点。然后在最优点附近利用小步长划分网格,使网格划分更加密集,再次进行搜索选择出最优点。重复以上步骤,直至网格间距或目标函数变化量小于给定值。

为了提高随机森林算法的分类性能,需要同时考虑单棵决策树的分类正确率和树的多样性,然而两者之间也存在着一定关系。到目前为止仍没有关于两者关系对随机森林性能影响的研究[16]。本文针对随机森林算法中决策树数k和候选分裂属性数mtry为离散值的特点,采用网格搜索算法进行参数优化。本文提出的基于改进的网格搜索的随机森林参数优化的目标函数值选用袋外数据估计的分类误差。由于随机森林在构建过程中的随机性,分类误差可能会在一定范围内波动,因此为减小不确定性对参数选择产生的影响,本文在求分类误差时选用多个随机森林模型分类误差的平均值。具体步骤如下:

图4为利用网格搜索对随机森林进行参数优化选择的结果。在粗搜索得到的最优点k=400,mtry=5附近进行网格划分。k的取值范围为360≤k≤440,步长设定为10,mtry的取值范围为1≤mtry≤9,步长设定为1。由图4可以看出,当决策树的数量k=440,候选分裂属性数mtry=5时,随机森林的泛化误差最小,为0.053 518。

交代结构(即钠长石交代集合体):主要由叶片状钠长石和糖粒状钠长石两种组成,次有石英、针状电气石。叶片状钠长石(即板柱状、柱状):其粒度为0.1mm×0.1mm,最大粒度为1mm×2mm,一般为0.5mm×1mm,糖粒状钠长石晶体大小一般为0.1mm×0.1mm。

(3)选择分类误差最小的参数k,mtry,若分类误差或者步长满足要求,则输出最优参数和分类误差;否则,缩小步长,重复上述步骤,继续搜索。

(2)使用专用车门对中工装(见图10)调整车门,以保证车门对中良好。车门对中工装为左右对称结构,操作时,先将对中工装安装在客室车门中心点处,然后将左右门页贴靠对中工装,最后拧紧相关紧固螺栓。

苔藓和地衣下面的冻土层好比是北极的一座天然冰箱,寒冷的气候冷冻了土壤,也顺带冷冻了土壤里的各种有机物。然而,由于人类活动导致的全球气候变暖,使得冻土和周围的海冰逐渐融化。土壤中的微生物被释放出来,参与化学反应,向大气释放二氧化碳、甲烷等气体,而这些气体反过来又加速了全球气候的变暖。也许你会说,天气变暖,驯鹿迁徙的路就不那么难走了,可出人意料的是,天气变暖会让驯鹿饿肚子!

  

图2 基于改进的网格搜索算法的随机森林参数寻优流程图

4 仿真验证

式中,pi为第i类样本的概率。如果一个样本集T被划分为了l个样本子集T1,T2,…,Tl,子集所含样本数分别为N1,N2,…,Nl,则这次分裂的基尼指数为[8]

(2)对网格节点上的每一组参数构建随机森林,并利用袋外数据估计分类误差。

 

表1 UCI数据集

  

?

现以spambase数据集为例基于网格搜索对随机森林算法的参数进行优化。spambase是归类为“垃圾邮件”和“非垃圾邮件”两类的电子邮件数据集。在进行大步长粗搜索时,决策树的数量k的取值范围设定为50≤k≤500,步长设定为50,候选分裂属性mtry取值范围设定为1≤mtry≤57,步长设定为10。搜索结果如图3所示。

  

图3 随机森林参数粗搜索结果图

由图3可以看出,基于网格搜索进行大步长粗搜索时,发现当决策树数量k=400,候选分裂属性数mtry=5时,随机森林的泛化误差最小,为0.055 963。同时可以看出,随着随机森林的候选分裂属性数mtry增大,分类的效果并不是越来越好。这是因为随机森林的泛化误差与决策树之间的相关性成正比。随着候选分裂属性的增多,决策树之间的相关性越高,所以在mtry增加到某一数值后,分类效果反而出现了下降。随着决策树的数量逐渐增加,随机森林的泛化误差逐渐减小,当决策树的数量增加到某一数值后,泛化误差趋于稳定。

上述搜索过程可用图2所示的流程图进行表示。

(1)从大小为N的训练数据集L中有放回地随机抽取N个训练数据样本,得到一个自助训练集L(B)k

(1)确定决策树的数量k和候选分裂属性数mtry的范围,设定步长,在k和mtry坐标系上建立二维网格,网格节点就是相应的k和mtry的参数对。

  

图4 随机森林参数大步长搜索结果图

为验证本文提出的方法对其他数据集也适用,本文对表1中剩余数据集重复上述步骤,进行网格搜索,得到随机森林相应的决策树数量k和候选分裂属性数mtry的优化参数以及优化参数后的泛化误差如表2。

采用统一的1.5T磁共振成像系统对受查者进行3D-ASL、MRA、DWI、T1WI、T2WI及FLAIR扫描,3D-ASL采用FSE信息读取,带宽62.5,矩阵64×64,TE36.34ms,频率123.25,层数36,层厚4mm;对所得的图像交由放射科两位主任进行数据分析,对灌注区异常及狭窄异常情况进行分析[3]。

 

表2 基于UCI数据集的随机森林参数寻优结果

  

?

表2中的第4列为mtry=lb「 M +1」,k=200时随机森林的泛化误差,第5列为利用本文提出的方法进行参数选择后随机森林的泛化误差。由表2可以看出,基于改进的网格搜索算法对随机森林算法的参数进行优化,可以使随机森林的分类效果得到一定程度的提高。

采用基于改进的网格搜索的随机森林参数优化算法和网格搜索的随机森林参数优化算法分别对表1中的11个数据集进行训练,得到二者的训练时间如表3。

 

表3 随机森林参数优化算法的训练时间对比 s

  

?

对于dna数据集和msplice数据集,由于样本多,维数高,使用网格搜索算法对随机森林参数进行参数优化时,超出了计算机的运行内存,并未完成训练,而本文提出的优化算法完成了训练。由表3可以看出,本文提出的基于改进的网格搜索的随机森林参数优化算法比基于网格搜索的优化算法节省了大量时间,并且随着维数的增加,节省的时间越多。

5 结束语

本文提出了一种基于改进的网格搜索的随机森林参数优化算法,该方法能够在一定程度上提高随机森林算法的分类性能,同时也比基于网格搜索算法的优化算法节约了大量时间。但是,在粗搜索的最优点附近继续进行网格搜索可能会陷入局部最优,从而不能寻找到最优参数。

参考文献

[1]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.

[2]Kulkarni V Y,Pradeep K S.Efficient learning of random forest classifier using disjoint partitioning approach[C]//Proceeding of the Word Congress on Engineering 2013.London:IAENG,2013:1-5.

[3]Kulkarni V Y,Pradeep K S.Random forest classifiers:a survey and future research directions[J].International Journal of Advanced Computing,2011,36(1):1144-1153.

[4]Oshiro T M,Perez P S,Baranauskas J A.How many trees in a random forest[C]//Lecture Notes in Computer Science:International Workshop on Machine Learning and Data Mining in Pattern Recognition,2012,7376:154-168.

[5]Bernard S,Heutte L,Adam S.Towards a better understanding of random forests through the study of strength and correlation[C]//Lecture Notes in Computer Science:International Conference on Intelligent Computing.Berlin,Heidelberg:Springer-Verlag,2009,5755:536-545.

[6]马景义,吴喜之,谢邦昌.拟自适应分类随机森林算法[J].数理统计与管理,2010,29(5):805-811.

[7]刘迎春,陈梅玲.流式大数据下随机森林方法及其应用[J].西北工业大学学报,2015,33(6):1055-1061.

[8]王全才.随机森林特征选择[D].大连:大连理工大学,2011.

[9]庄进发,罗键,彭彦卿,等.基于改进随机森林的故障诊断方法研究[J].计算机集成制造系统,2009,15(4):777-785.

[10]Genuer R,Poggi J M,Tuleau-Malot C.Variable selection using random forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.

[11]Panov P,Deroski D.Combining bagging and random subspaces to create better ensembles[C]//Lecture Notes in Computer Science:Proceedings of the 7th International Conference on Intelligent Data Analysis.Berlin,Heidelberg:Springer-Verlag,2007,4723:118-129.

[12]Bernard S,Heutte L,Adam S.Influence of hyperparameters on random forest accuracy[C]//Proceedings of the 8th International Workshop on Multiple Classifier System.Berlin,Heidelberg:Springer-Verlag,2009:171-180.

[13]李贞贵.随机森林改进的若干研究[D].福建厦门:厦门大学,2014.

[14]谢剑斌.视觉机器学习[M].北京:清华大学出版社,2015:55-58.

[15]Breiman L.Stacked regressions[J].Machine Learning,1996,24(1):49-64.

[16]Adnan M N,Islam M Z.Optimizing the number of trees in a decision forest to discover a subforest with high ensemble accuracy using a genetic algorithm[J].Knowledge-Based Systems,2016,110:86-97.

 
温博文,董文瀚,解武杰,马骏
《计算机工程与应用》2018年第10期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号