更全的杂志信息网

基于遗传算法的一种不平衡数据集采样方法GSA

更新时间:2009-03-28

0 引言

近年来,机器学习中的样本不平衡问题引起了广泛的关注。

不平衡样本(Imbalanced Sample)是指在分类问题中,训练样本中有的类别的样本数量特别多,有些类别的样本数量特别少。

现实生活中我们遇到的数据大部分都是不平衡的,而大部分的数据中,我们关注的重点往往是样本数量少的类别。比如说信用卡欺诈数据中,其欺诈数据相对于大量的正常用户来说只是少部分,而这些用户才是我们关注的重点,由于样本的不平衡,使得我们很难从大量的用户中找到存在欺诈的用户。所以对于这些数量少的样本类别,如何来提高模型的识别能力,是我们研究的重点。

不平衡数据广泛存在于各种领域,如医疗诊断、雷达图像检测、诈骗检测、电信设备故障预测等[1]。而现有的机器学习分类算法一般都是默认训练样本集中各类别的数量基本保持一致,因此当数据变得不平衡时,大多数机器学习分类算法的分类精度大幅度降低,对存在不平衡数据集的领域发展造成极大影响。

共识机制使用资源换取效率的过程并不是凭空产生的,而是有着一定的前提。当前共识机制信任来源总结如下,其中一种共识机制不一定基于全部信任来源:

本文融合基于遗传算法[2](Genetic Algorithm)与SMOTE(Synthetic Minority Oversampling Technique)算法提出一种样本合成方法——GSA算法(Genetic-SMOTE Algorithm)。

1级:大多因术后出现脑脊液漏而确诊,手术过程中难以发现,若术中发现可以使用明胶海绵压迫或生物蛋白胶粘合,为避免脊髓或马尾神经损伤,植入明胶海绵不宜过多。

1 相关研究

现实中大多数的数据都是多类别数据,但我们常用两类别数据来研究,最后做扩展延伸,本文只考虑两类情况下的样本不平衡,这里我们将样本数量少的类别称为少数类,样本数量多的类别称为多数类。

对于样本不平衡的研究,目前主要有数据采样、代价敏感学习(cost-sensitive learning)、boosting技术、核方法、主动学习(active learning)以及单类别学习等方法[1]

2015年12月,中共中央办公厅、国务院办公厅印发《关于完善矛盾纠纷多元化解机制的意见》,明确规定要建立律师调解制度。2017 年 9月,最高人民法院、司法部联合颁布《关于开展律师调解试点工作的意见》(司发通〔2017〕105 号),(以下简称《试点意见》),对开展律师调解试点工作作出全面部署。律师调解工作开展以来,有力推动了矛盾纠纷多元化解机制建设,为我国司法体制改革作出了贡献。但试点工作中暴露出的认识混乱、保障不足、机制不畅等问题却阻碍了律师调解的进一步开展。本文以杭州律师调解试点实践为样本,分析研究律师调解存在的问题与不足,并对解决路径进行探讨,以期能真正发挥律师调解的巨大作用。

本文从UCI数据库中挑选了5组不平衡数据集进行实验,数据的详细信息如表1所示。其中在所取的数据集中对于类别较多的数据集,选择其中样本数量较少的一类作为少数类,选其中样本数量较多的一个类别作为多数类。

数据采样是通过增加少数类的样本或者减少多数类样本的方法来达到平衡数据的目的。单纯增加少数类样本来训练模型可能导致模型过拟合,而减少多数类的样本又会使数据信息丢失。

电动汽车作为电力负荷的重要组成部分,具有电力负荷变化的特点,把某省电网每日负荷按15分钟为一期,建立某周负荷曲线图,如图1所示。一周的负荷当中,每日峰荷、腰荷、谷荷时刻基本相同,每天的负荷基本按相同的规律波动,具有周期性的特点。

与数据采样不同,代价敏感学习关注错分样例的代价[3]。代价敏感学习通过对错分的样本重点关注,每次模型训练的时候对错分的样本增加更多的关注度。但是这种方式可能弱化模型对多数类的预测能力。

Boosting技术也是处理不平衡样本的一种方式。它可以直接运用到不平衡样本的模型建立中。比如AdaCost[4]、RareBoost[5]、BAboost[6]等此类算法主要讨论代价敏感学习和boosting技术的结合。另外还有一类主要是结合数据采样和boosting技术来处理数据的不平衡问题,如SMOTEBoost[7]和PCBoost[8]等。

PCBoost是通过随机采样来合成少数类样本。随机采样是对样本的所有属性值采用随机的方式进行复制,但是加入随机采样的数据对原始数据信息的影响是不确定的,同时随机采样并没有增加或者扩展总体样本的信息。

本文融合基于遗传算法(Genetic Algorithm)与SMOTE(Synthetic Minority Oversampling Technique)算法提出一种样本合成方法——GSA算法(Genetic-SMOTE Algorithm)。

2 GSA算法

2.1 GSA算法思想

SMOTE算法在解决不平衡数据集问题时,由于其随机性和局限性,导致了合成新样本类别的不确定性。为了增加合成样本的确定性,同时保证样本的多样性,本文融合遗传算法与SMOTE算法,提出了GAS算法合成新样本。GSA算法只针对少数类样本的新合成。

遗传算法拥有确保子代与母代既有相似性又有多样性的优点。因此通过对少数类样本的选择操作,交叉操作,变异操作,最终合成新样本。GSA算法通过选择操作来选取采样样本以及控制最终合成样本数量,通过交叉操作保证新样本与原样本的相似性,通过变异操作保证样本的多样性。

GSA算法在样本合成过程中需要对样本值进行交叉和变异——利用样本集特征对类别的影响程度,来确定样本值的交叉和变异。若样本特征对少数类样本影响程度较大则对该特征值进行交叉操作,来保留样本与原少数类样本的相似性;若该样本特征对少数类样本影响较小则对样本特征值利用SMOTE进行变异操作,丰富样本集的多样性。

冯建宁是农民的儿子。早在2005年,他的父亲便承包了临汾市大宁县太古乡坦达村100余亩闲置土地种植核桃苗,并零散地种一些西瓜、玉米维持全家6口人的生计。

样本的特征表征数据集的重要信息。它对我们研究样本的归属意义重大。在分类样本集中,不同的样本特征对样本集中不同的类别拥有不同的影响。也就是有的样本特征对于某些类别来说是一个关键的特征,而对于其他类别来说它是可以忽略的。因此,可以将样本特征分为少数类特征和多数类特征。

2.2 GSA算法描述

假设一个n维两类不平衡数据集O,多数类的样本集为M,少数类的样本集为N。GSA算法的主要步骤为:

1)对种群进行编码。根据样本集特征对类别的影响程度,将其编码。

2)父代选择。每次迭代中随机从少数类样本中选择两个样本作为父代。

3)交叉变异。根据样本集特征编码方式对父代样本进行交叉变异,产生子代样本。

GE J K,QIU Y H,WU C M,et al.Summary of genetic algorithms research[J].Application Research of Computers,2008,25(10):2911-2916.

1)设定采样率为W,即是少数类和多数类保持基本平衡所需要新样本的数量占总样本的比例。

(一)激发学习兴趣。兴趣与热情能促使学生更加积极参与到生物课程的学习中,也能有效促进生物教学效果的提升。在高中的生物教学中要实现互动教学法的顺利开展,首先就要对学生的兴趣加以极大,这对提高学生学习的积极性,活跃课堂的学习氛围都有着极大的帮助。对学生而言,生物的学习往往具有一定的抽象性,如果不能采用有效的学习方式往往会使学生在学习中感到乏味与物料而失去学习的兴趣,这也就要求教师能采用有效的方式能应对生物知识的抽象性。比如可以在教学中对现代的多媒体技术进行充分的运用,以声音、画面、视频等多样综合的方式使抽象的知识变得更加直观,既能使课堂氛围变得更加愉悦,又能有效提高教学的效果。

2)首先对样本特征进行分类编码。

① 在少数类样本中随机选取一个样本N0

4)重复执行第3)步,当采样率达到W,算法结束,得到新少数类样本集。

③ 分别计算N0到少数类近邻样本N1N2N3,…,Nk距离的平均值l1N0到多数类近邻样本M1M2M3,…,Mk距离的平均值l2。并计算L1=l1/l2

④ 从样本特征中挑选特征ai(i=1,2,3,…,n),在不考虑特征ai的情况下按照相同的方法求得少数类样本N0到少数类近邻样本N1N2N3,…,Nk距离的平均值l1′和N0到多数类近邻样本M1M2M3,…,Mk距离的平均值l2′。并计算L2= l1′/l2′。

⑤ 比较L1L2的大小,若L1>L2,特征ai对多数类的影响更大,将特征ai分为多数类特征,若L1<L2,特征ai对少数类的影响更大,则将ai分为少数类特征。将少数类特征和多数类特征分别编码为1和0。

本实验采用SVM算法来对平衡后的样本集做分类,然后利用F-measure值来对分类结果进行评价分析,结果如表2所示,实验横向对比了原始数据、随机过采样和SMOTE算法过采样后三种数据集的分类F-measure值。由实验结果可知,GSA算法的F-measure值都高于其他方法,分类精度得到了提高。

3)随机从少数类样本中抽取两个样本(不重复抽取),按照编码进行交叉变异,若特征为少数类特征则对两个样本该特征值进行交叉,若为多数类特征则让两个样本该特征的特征值调用SMOTE算法进行变异。如图1所示,对特征编码为1的特征值进行交叉,对特征编码为0的特征值进行变异,其中α为0到1之间的随机值。

  

图1 特征值交叉变异示意图Fig.1 Crossover and mutation of features

② 分别找到N0k个少数类近邻样本N1N2N3,…,Nkk个多数类近邻样本M1M2M3,…,Mk

3 实验过程及结果分析

3.1 数据集及参数设置

3.1.1 数据集

地下的热量可以作为类似地热能一样的能量加以回收利用。每当夏季炎热高温的时候,矿井的温度可达30℃以上,部分矿井甚至可达40℃以上,这样温度的气体倘若被抽到地表加以利用,不仅可以解决矿井高温的问题,20~50℃的水还可以用来沐浴,水产养殖,饲养牲畜,土壤加温,脱水加工。

 

1 样本集信息

 

Tab.1 Sample set information

  

样本集名称样本数量特征数目少数类多数类Nursery_1464883284320Nursery_2459483284266Krkopt_1304272462796Krkopt_2471781390abalone756867689

表中的Nursery_1和Nursery_2样本集都是从数据集nursery中分别挑选的两个类别组成的样本集,同理Krkopt_1和Krkopt_2是从数据集krkopt中分别挑选的两个类别组成的样本集。

3.1.2 参数设置

实验过过程中的采样率的设置是为了增加了新合成样本后,样本集中少数类样本数量与多数类样本数量基本一致。采样率W即所增加新样本的数量占总样本的比例。实验过程中近邻样本个数k设置为7。

2) 运输价格昂贵,市场发育不良。竹林地附近无加工厂,竹材加工地远离竹林产地,运输价格昂贵。3大加工城市也没有竹材集散地,更无规模化的竹产品销售场所。大部分竹产品都是摆在路边销售,市场发育不良。建议学习中国经验,在竹林旁进行竹子的初加工,将初加工产品运至工厂再加工成成品。

Apache HTTP Server,是Apache软件基金会的一个开放源码的网页服务器,具有跨平台使用和安全性高的特点。通过模块化的设计来适应各种外在平台环境,允许网站管理员通过在编译时或运行时,选择哪些模块将会加载在服务器中,从而选择服务器特性。Django框架使用mod_wsgi.so作为插入模块,使网站正常运行。主要配置代码如下:

3.2 实验结果分析

分类器的效果和识别精度,需要一定的评价准则来对分类器进行评估。机器学习领域对于非平衡数据分类的常用评价标准包括受试者工作特征(Receiver Operating Characteristic,ROC)曲线、AUC (Area Under ROC Curve) 以及基于混淆矩阵的若干度量,如召回率(recall)、准确率(precision)、F-measure 和G-mean等[9]

⑥ 重复②到⑤步,直到所有特征编码结束。

 

2 SVM算法分类后的F-measure值比较

 

Tab.2 Comparison of F-measure values after SVM classification

  

样本集名称原始样本集随机过采样SMOTE算法GSA算法Nursery_10.6170.5210.8040.912Nursery_20.5590.6730.7990.854Krkopt_10.7530.6340.7330.781Krkopt_20.9360.9140.9220.956abalone0.6010.5730.7830.871

4 总结

参考文献【REFERENCES】

本文对于数据集的不平衡性,提出了基于遗传算法的样本合成算法GSA算法,该算法较好克服了SMOTE算法的随机性和局限性,同时也考虑了样本特征对类别的影响,针对不同影响的特征值进行了不同的采样方法。通过典型的不平衡数据集进行实验比较,GSA算法在样本分类效果上有了较大的提升,但合成新样本增加了部分的样本信息,而GSA算法没有对这些信息进行有效地筛选,在未来的研究中有待提高。

[1] HE H,GARCIA E A.Learning from imbalanced data[J].IEEE Transactions on knowledge and data Engineering,2009,21(9):1263-1284.

②销售税金附加,包括城市维护建设税、教育费附加、地方教育费附加,以增值税额为基础征收,税率分别为 5%、3%、2%。

[2] 葛继科,邱玉辉,吴春明,等.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916.

GSA算法流程:

[3] 凌晓峰,SHENG V S.代价敏感分类器的比较研究[J].计算机学报,2007,30(8):1203-1212.

Ling X F,SHENG V S.A comparative study of cost-sensitive classifiers[J].Chinese Journal of Computers,2007,30(8):1203-1212.

肝衰竭不是一个独立的临床诊断,而是一种功能判断。在临床实际应用中,完整的诊断应包括病因、临床类型及分期,建议按照以下格式书写:

[4] FAN W,STOLFO S,ZHANG J,et al.AdaCost:misclassification cost-sensitive boosting[C]//Proceedings of the 16th International Conference on Machine Learning.Slovenia:IMLS,1999:97-105.

[5] JOSHI M V,KUMAR V,AGARWAL R C.Evaluating boosting algorithms to classify rare classes:comparison and improvements[C]// Proceedings of 2001 International Conference on Data Mining.IEEE,2001:257-264.

首先,本文涉及的知识领域很广泛,有的领域迄今仍然处于探索阶段,如进化心理学、意识的起源、美的发生等等,以进化心理学为例,进化心理学必须找出有证据支持的具体细节,来解释人类心理特质的进化过程,然而这类证据很难找到。因为在最近200万年间,能够为人类心理适应器的进化过程提供支持的证据十分缺乏。而且,这类证据很难物化,我们可能已经永远失去了这些证据。关于人类心理进化的诸多知识,我们要么不知道,要么仅限于推测,这可能是严峻而又残酷的事情[]49。因而本文对于这些领域里知识的掌握、理解和运用,有可能是粗糙的,还有待进一步的研究、推敲和精细论证。

[6] SONG J,LU X,WU X.An improved AdaBoost algorithm for unbalanced classification data[C]//Sixth International Conference on Fuzzy Systems and Knowledge Discovery.IEEE,2009:109-113.

[7] CHAWLA N V,LAZAREVIC A,HALL L O,et al.SMOTEBoost:Improving prediction of the minority class in boosting[C]//European Conference on Principles of Data Mining and Knowledge Discovery.Heidelberg:Springer,2003:107-119.

[8] 李雄飞,李军,董元方,等.一种新的不平衡数据学习算法PCBoost[J].计算机学报,2012,35(2):202-209.

LI X F,LI J,DONG Y F,et al.A new learning algorithm for imbalanced data-PCBoost[J].Chinese Journal of Computers,2012,35(2):202-209.

[9] 霍玉丹,谷琼,蔡之华,等.基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法[J].计算机应用,2015,35(1):121-124.

HUO Y D,GU Q,CAI Z H,et al.Classification method for imbalance dataset based on genetic algorithm improved synthetic minority over-sampling technique[J].Journal of Computer Applications,2015,35(1):121-124.

1)地图制图数据转换为地理信息生成系统数据:地理信息生成系统中主要有语义信息、量度信息和关系结构信息3种基本信息。语义描述模型主要是要素编码,主要对要素的分类与分级进行描述;数据项承担描述要素的质量特征、数量特征以及其他附属信息的作用[2];数据体则承担描述要素的空间分布特征和空间相互关系的作用。对于地图数据而言,其数据结构内部质量极有可能无法满足空间数据对于转换的要求。

 
张巡,黎平,刘萍
《贵州科学》 2018年第02期
《贵州科学》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号