更全的杂志信息网

基于特征变权的动态模糊特征选择算法

更新时间:2009-03-28

特征选择是数据挖掘和机器学习中的一个重要课题,它不仅有助于理解数据、节约计算成本、减少特征之间的相互影响,而且可以提高预测的准确率[1-2].特征选择也称特征子集选择,是指从原始特征中选择出一些最有效特征以降低数据集维度的过程[3].目前,特征选择已经应用于多个领域,例如工业传感器数据分析[4]、空气质量分析[5]、健康数据分析[6]等等.

在一些现实的系统中,人们往往利用一些模糊语义将原始特征集转化为模糊特征集,提高系统的可解释性.然而,模糊化后的特征空间比原始的特征空间维度更高,为了减少系统模糊化后的复杂性,从模糊特征中选择有价值的特征显得更为重要.此外,实际应用往往是具有多特征的动态复杂系统,随着时间的变化,特征的重要程度也在逐渐发生变化,例如一些重要的特征随着时间的推移变得冗余,或者起初不重要的特征随着时间的推移变得越来越重要.虽然国内外已经涌现了一系列特征选择算法,例如过滤式特征选择算法[7]、封装式特征选择算法[8]、嵌入式特征选择算法[9]等用于提高学习算法的性能.但上述方法不能体现特征选择的实时性,导致算法延迟和不连续,影响了可解释性.因此,动态特征选择算法应运而生.文献[10]提出基于在线分类器的动态特征选择算法,该算法选择所有可以代表整体数据集信息的特征,但利用分类器评估所选特征的好坏,增加了计算负担;文献[11]提出基于贝叶斯分类器的封装式动态特征选择算法,该算法利用贪婪算法寻找最优的特征子集,增加了算法的时间复杂度和空间复杂度;文献[12]介绍了4种新的特征质量检测指标,然后用检测指标和聚类算法动态地选择有用的特征,但是聚类算法需要人为设置聚类个数,降低了算法的自适应性;文献[13]提出基于K均值算法和遗传算法的动态特征选择算法,该算法分别利用遗传算法和K均值算法确定目标函数和寻优范围,但该算法得到的特征子集不是全局最优的.尽管如此,针对动态系统,如何自适应地进行模糊特征选择仍然是一个挑战性的课题.

本文主要有4个方面的贡献:

1) 提出一种基于特征变权的动态模糊特征选择算法,包括离线模糊特征选择和在线模糊特征选择2部分;

2) 通过计算每个模糊特征的权重,动态优化所选模糊特征子集,保证了特征选择过程的平滑性和时效性;

该大学录取办公室主任理查德·邵说:“我们可不想官司缠身。而且就算这样,还是会有人回头来找我们,声称要告我们,真是麻烦透顶。

3) 在特征变权的基础上,离线模糊特征选择利用后向选择算法和模糊特征筛选指标获得优化模糊特征子集,在线模糊特征选择根据重要度不断更新优化模糊特征子集;

为此,我们将模糊输入特征筛选指标FCI作为衡量动态模糊特征选择的衡量标准.它不仅考虑模糊特征子集的输入特征与输出特征之间的互信息量,还考虑模糊输入特征与模糊输入特征之间的互信息量:

受明、清之际思想学术正统化思潮的影响,毛氏以上批评针对公安派及其追随者,有其可取之处,但是否定公安派的创新之处,却暴露了自身的保守性。他反对写诗完全阻断“前辙”,“自辟门户”,却同意“因变成化”。毛先舒推崇明代前后七子,前七子之一的何景明提出“登岸舍筏”,意为学古只是手段与工具,学古,但不拘泥于古。“稽古日新”说与“登岸舍筏”的出发点是一致的。

1 相关工作

动态特征选择算法的目的是在动态数据集中选择出能够实时刻画主要特性的特征.关于动态特征选择的研究有很多[14-18],其中,一些动态特征选择算法只能处理类别数据,例如文献[14]提出基于粗糙集的动态特征选择算法,以粗糙集为基础,动态地计算特征的独立性,从而进行特征选择;文献[15]提出基于邻域粗糙集的动态特征选择算法,邻域粗糙集摆脱了粗糙集只能处理离散型数据的约束;文献[16]提出基于信息粒度的动态特征选择算法,利用非矩阵的信息粒度结构减少了算法时间和空间的消耗,提高了算法效率.然而,上述算法都是针对类别数据集,适用范围较小.除此之外,研究者提出一些针对其他类型数据集的动态特征选择算法;文献[17]提出动态无监督特征选择算法,该算法将特征选择直接嵌入聚类算法中,利用聚类算法保存局部信息结构,帮助选择具有辨识能力的特征,然而,该算法需要设置参数控制聚类算法目标函数的构建,导致算法自适应能力不佳;文献[18]提出新的无监督动态特征选择算法,该算法近似地保存数据,根据在近似数据上的回归结果确定特征的重要程度,从而进行特征选择.然而,该算法依赖回归模型进行特征选择,没有独立的特征评价指标,限制了算法的使用范围.

针对模糊数据的特征选择算法较少,文献[19]提出基于最小-最大学习规则和扩展矩阵的模糊特征选择算法,利用模糊化后的数据构建扩展矩阵,根据最小-最大学习规则衡量每个模糊特征包含重要信息的多少,从而获得模糊特征选择结果,但是此算法只适用于静态数据集,不适用于动态系统中的模糊特征选择;文献[20]提出基于在线特征权重的动态模糊特征选择算法,该算法计算每个模糊特征的权重,根据可分离判据,选择有助于分类的模糊特征,然而该算法中需要设置分离阈值,降低了算法的自适应能力.

鉴于此,本文提出了基于特征变权的动态模糊特征选择算法(dynamic fuzzy features selection based on variable weight, DFFS-VW).主要包括2个阶段:

1) 离线模糊特征选择.首先,利用滑动窗口分割模糊数据,在第1个滑动窗口中进行离线模糊特征选择,计算每一个模糊输入特征与输出特征的互信息量;然后根据互信息量计算每一个模糊输入特征的权重,并从大到小排序,计算相邻模糊输入特征的权重梯度和截断点阈值进而获得候选模糊特征子集,缩小了寻找最优模糊输入特征子集的空间,提高了算法效率;在此基础上,根据模糊特征筛选指标既考虑模糊特征子集的输入特征与输出特征之间的互信息量又兼顾模糊输入特征之间的互信息量来筛选特征,并通过后向特征选择算法得到离线的优化模糊特征子集,保证了所选模糊特征子集为全局最优.

2) 在线模糊特征选择.在依次到来的滑动窗口中进行在线模糊特征选择,综合利用当前时刻滑动窗口中的候选模糊特征子集和前一个滑动窗口中的优化模糊特征子集,自适应地跟踪输入模糊特征权重的变化,得到当前滑动窗口中的优化模糊特征子集,提高了模型的解释性并保证学习的平滑性和实效性;根据模糊输入特征与初始化优化模糊特征子集之间的重要度获取最终的优化模糊特征子集,同时考虑历史特征选择结果和当前数据分布,确保最终的优化模糊特征子集的优越性.在DFFS-VW算法中,输出特征可以是类别标签,也可以是连续数据,无论是离线模糊特征选择,还是在线模糊特征选择,都无需依赖分类器或者回归模型,无需人为设置任何参数,提高了算法的自适应性.

2 相关定义

本文以滑动窗口分割模糊化数据为基础,从模糊特征互信息量入手,建立起模糊输入特征与输出特征之间的联系,进而实现动态模糊特征选择.为了确定滑动窗口的大小,这里采用Hoeffding边界检测数据的分布.

定义1. Hoeffding边界[21].对于取值范围为R的特征,假设每个滑动窗口包含n条数据样本,在置信程度是1-δ(δ一般取0.05)的条件下,Hoeffding边界ε

(1)

其中,R为特征的取值范围:

R=(x1.max-x1.min,x2.max-x2,min,…,xj,max-xj,min,…,xL,max-xL,max),

其中,xj,max是第j个变量的最大值,xj,min是第j个变量的最小值,L是数据集变量的个数.

在装有温度计、搅拌器和回流冷凝器的250mL三口瓶中,加入一定量的蒸馏水,开启搅拌,加热至30℃;然后向三口瓶中加入溶有引发剂和交联剂的单体混合物(按一定质量比配置的AMPS、AA、AM水溶液),提高搅拌速度,搅拌10min使混合物在三口瓶中均匀分布,配制成一定单体浓度(默认30%)的水溶液,并用20%的NaOH溶液调节溶液pH值至目标值(2~9),通氮气除氧 30min,加热至一定温度后(50~80℃)恒温反应5 h。反应结束后,体系自然冷却至室温,将产物用乙醇洗涤3次后在80℃真空干燥箱中干燥,粉碎后制得白色粉末即为三元共聚物缓凝剂。

随着n的增加,Hoeffding边界ε在变小,这表明当n足够大,Hoeffding边界ε将趋近于0.

根据Hoeffding边界,样本集的最小容量NH可以确定:

(2)

根据式(2)可知,Hoeffding边界ε是获得样本集的最小容量NH的关键.假设相邻滑动窗口Wp-1Wp所包含的样本集均值分别是μp-1μp,在置信程度是1-δ的条件下,|μp-1-μp|≤2ε,则样本集的最小容量NH的计算公式可以调整为

(3)

由于对数值数据进行模糊化处理不仅有助于提取高层次的含义,而且不需要对数据进行简单地“硬”划分,它被广泛应用于智能系统中[19].通常的模糊化方法是根据经验或者知识建立隶属度函数.但是,在多数情况下,很难获取所需要的信息或者专家知识.本文利用以前的研究基础[22]对数据特征进行聚类实现特征模糊化.设第p(p≥0)个滑动窗口包含n条数据,L维输入特征和一维输出特征,可以表示为

(4)

令输入特征和输出特征共同组成的特征向量为

定义2. 输入特征模糊化.假设特征的聚类结果中分别包含个类别,根据每个输入特征的聚类结果将输入特征向量为输入模糊特征向量

(5)

其中,是第p个滑动窗口中第j(1≤jL)个特征的第个模糊特征,可以表示为

(6)

(7)

其中,n是数据集的样本个数,L是数据集的输入维度,是第p个滑动窗口中第i个样本的第j个输入特征值,是第p个滑动窗口中第j个输入特征的均值,是第p个滑动窗口中第j个输入特征的方差.

为了度量模糊特征之间的相关性,有必要引入新的度量.

如果相邻模糊权重梯度在一定范围内平稳变化,表示模糊输入特征对输出特征的影响几乎保持在同一个水平;如果相邻权重梯度出现明显的下降,表示模糊输入特征对输出特征的影响急剧减小.我们可以将相邻模糊权重与相邻模糊权重均值和相邻模糊权重标准差的和作比较,自适应地发现模糊输入特征对输出特征的影响急剧减小的截断点,将相邻模糊权重均值和相邻模糊权重标准差的和称作是截断点阈值.根据第p个滑动窗口中前d-1个权重梯度,计算第p个滑动窗口中第d个权重梯度的截断点阈值

 

(8)

其中,是特征子集相对于第i条样本的基:

大数据时代的不断发展,为人们的日常生活带来极大的便利,通过使用相关的电子设备能够进行工作、交流以及学习,通过大数据中大量的信息资源能够充实自身的知识体系;但在使用网络的过程中,使用者忽略保护自身的个人信息安全,从而造成信息泄露的不良后果,因此在网络的使用中,应树立信息安全意识,加强对于自身信息的安全保护,避免信息泄露带来的负面影响,同时,大数据信息平台应加强信息基础设施建设,在浏览网页过程中提醒使用者注意保护自身的个人信息,以此来确保大数据的信息资源安全运行,保障使用者的个人利益。

(9)

其中,中包含的模糊特征个数,是第p个滑动窗口中第j个特征的第q个模糊特征,是第p个滑动窗口中第i条数据的第j个特征值对于模糊特征的隶属度值,是第p个滑动窗口中第k条数据的第j个特征值对于模糊特征的隶属度值.

他哈哈大笑:“你啊,就是一块金子,在哪儿都会发亮的。即使在偏远的角落,不起眼的花店,你总是那么独特。不是有句话说,酒香不怕巷子深嘛,你就是那坛酒,香醇,美好,诱人,令人遐想。

定义4. 联合模糊信息熵.设是第p个滑动窗口的模糊特征子集,是第p个滑动窗口中第j个特征的第q个模糊特征,的联合模糊信息熵:

 

(10)

其中,是模糊特征相对于第i条样本的基:

(11)

3 基于特征变权的动态模糊特征选择算法(DFFS-VW)

3.1 DFFS-VW算法框架

为了提高模糊动态特征选择的实效性和快速性,降低算法复杂性,发现各个模糊输入特征权重的演化规律.本文提出了DFFS-VW算法,该算法的基本框架如图1所示,首先利用滑动窗口W0,W1,…,Wp分割模糊数据,以第1个滑动窗口中的数据作为初始数据进行离线模糊特征选择,在随后依次到来的滑动窗口中进行在线模糊特征选择.在离线模糊特征选择中,计算每个模糊输入特征的权重,根据权重得到候选模糊特征子集;结合后向特征选择算法和模糊输入特征筛选指标迭代地筛选候选模糊特征子集,每一步都忽略其中权重值最小的模糊特征,得到优化模糊特征子集.在在线模糊特性选择中,根据当前滑动窗口中的数据获取候选模糊特征子集,利用上一个滑动窗口的模糊优化特征子集与当前窗口的候选模糊特征子集的交集作为当前快照的初始优化模糊特征子集,计算其余的模糊输入特征与初始优化模糊特征子集的重要度,若重要度大于0,将模糊输入特征加入优化模糊特征子集.最后,根据各个模糊输入特征的权重对模糊输入特征进行演化分析.

3.2 滑动窗口的确定

在动态环境中,滑动窗口是一种被广泛应用的技术.每个滑动窗口中包含着最新产生的样本,并丢弃过去的样本.目前主要有2种确定滑动窗口的方法:1)使用固定的窗口大小;2)根据衰减因子确定滑动窗口中丢弃的数据和保留下来的数据,利用新数据代替已丢弃的数据.这2种方法都需要人为设置参数,然而,这些参数都很敏感,不易确定.根据数据分布直接确定窗口大小,可以解决上述问题.Hoeffding边界考虑了特征的变化范围,不断地调整滑动窗口包含的样本个数n,使得通过滑动窗口中的数据求得的最小容量NH不大于实际滑动窗口样本个数n,将n作为固定的滑动窗口大小.在动态特征选择过程中,随着信息不断的采集输入,滑动窗口的任务是以有效的方式管理输入数据,存储信息.相邻滑动窗口记录将被用来进行演化过程中特征之间的对等比较,获取各个输入模糊特征对输出特征的权重演化规律.

  

Fig. 1 Framework of the DFFS-VW图1 DFFS-VW框架

3.3 模糊特征权重

模糊特征权重是衡量模糊特征重要性的一种指标,在区间[0,1]中连续变化.模糊特征权重越接近1,代表该模糊特征越重要;越接近0,表示模糊特征重要性越低.模糊特征权重具有柔软性和平滑性:柔软性是指权重可以变小,但是不能完全丢弃,具有低模糊特征权重的特征仍然含有较少的信息;平滑性是指模糊特征权重在连续不断地变化,因此,具有低模糊特征权重的特征在之后的学习中仍有可能变成重要的特征.利用模糊特征权重的这2个特性,对模糊特征进行动态特征选择.本文根据互信息量计算每个模糊特征的权重:

 

(12)

其中,是第p个滑动窗口中第j个特征的第q个模糊特征,Yp是第p个滑动窗口中输出特征,是第p个滑动窗口中输入模糊特征与输出特征Yp的互信息量:

(13)

Yp是类标签时,Yp的熵H(Yp):

4) 应用不同数据集的实验结果表明:我们提出的动态模糊特征选择算法在无需设置任何参数的情况下,提高了算法的自适应性和预测准确性.

 

(14)

其中,是输出变量类标签的个数,nl是类标签为l的样本个数.

因此,人的德性均可用“气”来加以说明,如刘宗周说:“意者,心之中气;志者,心之根气。”[1](8册,P940)延续刘宗周之说,黄宗羲提出了良知即平旦之气的观点:

Yp的联合信息熵:

 

(15)

Yp是连续特征时,利用聚类算法对Yp进行归一化处理,根据定义3和定义4计算H(Yp)和

(4)沉淀法:取二种溶液各少许,分别逐滴加入氯化钙,产生沉淀的是N a2CO3,不产生沉淀的是N aH CO3。(N a2CO3+CaCl2=2N aCl+CaCO3↓)

仅考虑模糊特征权重大小筛选模糊特征,会导致当模糊特征的权重相差较小时,无法辨识模糊特征之间的差别.为了避免这一问题发生,本文采用模糊权重梯度筛选模糊特征,将模糊特征根据权重从大到小排列,依次计算排序后第p个滑动窗口中相邻模糊权重的梯度

(16)

(17)

Step2.1. 分别计算各个模糊特征与输出类别的互信息量.

定义3. 模糊信息熵.设是第p个滑动窗口的模糊特征子集,的模糊信息熵定义如下:

 

(18)

时,排序后的第d+1个特征是截断点.

无论是模糊特征权重,还是相邻模糊特征权重梯度,都只能衡量单个模糊特征的好坏,特征选择是要保证所选的输入特征子集整体最优.第p个滑动窗口中第j个特征的第q个模糊特征和第u个特征的第v个模糊特征之间的互信息量:

近几年河南省高校一直引进健美操专业的高学历人才,使河南省高校健美操教师男女比例差异大且年龄趋于年轻化;据国家教委对高校师资应具有研究生及以上学历要求,与当前河南省健美操教师的实际情况相结合,发现河南高校健美操教师学历层次方面存在差距,这对其健美操的相关科研发展有一定的影响。最后,体院培养健美操专项方向的教师时间短,从事健美操方向的专业教师也就少,在允许自由选课前提下,学生选学健美操人数却很多,从而出现健美操教师缺编的问题,学校对健美操教师的培养不能够满足学生们的选课需要,因此,需要对高校健美操教师专业结构进行调整和改进。

2.5 两组患者术后并发症发生率比较 两组患者术中均未见盆腔器官损伤发生。两组患者术后并发症发生率比较差异无统计学意义(χ2=0.519,P>0.05)。见表6。

(19)

其中,分别是第p个滑动窗口的模糊输入特征的模糊信息熵,的模糊联合信息熵.单个的模糊特征是模糊特征子集的特殊形式,所以可根据定义3和定义4计算模糊特征的模糊信息熵和模糊联合信息熵.

粗灰分是鱼粉的一种自然属性,其含量与骨骼组织含量有直接关系。如果将679个鱼粉样本的粗蛋白质和粗灰分含量一并作图,得到图2。

布拉姆·斯托克是19世纪著名爱尔兰小说家,创作了大量以超自然邪恶幽灵为特征的长、中、短篇小说,其中《德古拉》因开启了恐怖吸血鬼题材小说的先河而被公认为一部经典之作。《德古拉》以19世纪末期的英国为背景,以书信、日记、电报、报纸通讯等各种形式,时空交错地描写了一个吸血鬼的施暴和灭亡的故事。本文运用康奈尔的男性气质理论聚焦于该小说中男主人公乔纳森·哈克的男性气质危机以及重建问题。

(20)

其中,是第p个滑动窗口中模糊特征集合包含的模糊特征个数,是第p个滑动窗口中包含的各个模糊特征与输出特征之间互信息量的均值,是第p个滑动窗口中包含的两两模糊特征的互信息量的均值:

 

(21)

 

(22)

3.4 离线模糊特征选择

第1个滑动窗口中的数据作为初始数据进行离线模糊特征选择,主要分为2部分:1)根据输入模糊特征和输出特征的互信息量计算各个输入模糊特征的权重,将模糊输入特征根据权重由大到小排序,获取候选模糊特征集;2)在候选模糊特征集中,根据模糊特征筛选指标同时考虑输入模糊特征和输出特征的互信息量与输入模糊特征之间的互信息量,利用后向特征选择和模糊输入特征筛选指标得到与输出特征相关性最大、冗余度最小的优化模糊特征子集.

(一)随着中国经济的不断发展壮大,中国经济对于世界经济的渗透也在不断加深,中国经济已经在国际财经合作中扮演着重要角色。中国与很多国家都建立了各种形式的财经合作体系。2017年的G20峰会是中国第一次作为经济大国参与国际性的重大经济决策,中国对于全球经济恢复起到了推动作用。

算法1. 离线模糊特征选择算法.

Step3.4. 如果更新综合评价指标跳到Step3.5.

输出:最优模糊特征子集.

Step1. 初始化.初始化筛选后的模糊特征子集∅(p=0).

Step2. 获取候选模糊特征子集

其中,是第p个滑动窗口中排序后的第d+1个模糊输入特征的权重,是第p个滑动窗口中排序后的第d个模糊输入特征的权重.

Step2.2. 根据互信息量计算各个模糊特征的权重,并根据权重从大到小排列模糊输入特征依次计算排序后相邻权重的梯度.

关节镜术后行系统性康复锻炼对膝关节股性关节炎患者关节功能的影响……………………………… 王虹丹 颜夏威(6)819

Step2.3. 初始化候选模糊特征集

Step2.4. 确定候选模糊特征集如果则选取排序后的模糊输入特征中的前d个特征作为候选模糊特征集

Step3. 获取最优模糊特征子集

Step3.1. 计算候选模糊特征集的综合指标

Step3.2. 按照中模糊特征权重由小到大的顺序.

Step3.3. 依次不考虑排序后模糊特征权重对应的模糊特征时,计算模糊特征子集的综合指标

输入:所有模糊特征;

Step3.5. 循环执行Step3.2~ Step3.4,直到Step3.4中所产生的模糊特征子集的综合指标都不大于则不再循环.

Step4. 最优模糊特征子集

3.5 在线模糊特征选择

为了提高算法的效率,在线模糊特征选择首先利用第p-1个滑动窗口中的|Cp-1|个聚类中心和第p个滑动窗口中的所有数据组成Dp,其中p≥1,1≤q≤|Cp-1|;然后在此数据集中,根据权重的相邻梯度获取候选模糊特征集;最后以第p-1个滑动窗口中的优化模糊特征子集与候选模糊特征集的交集作为当前滑动窗口的初始优化模糊特征子集,根据重要度获得第p个滑动窗口中的优化模糊特征子集.

算法2. 在线模糊特征选择算法.

输入:前一个滑动窗口的聚类结果和当前滑动窗口的所有数据;

输出:优化模糊特征子集.

Step1. 构建Dp.当1≤q≤|Cp-1|时,利用第p-1个滑动窗口中的|Cp-1|个聚类中心和第p个滑动窗口中的所有数据组成Dp.

Step2. 获取候选模糊特征集

Step2.1. 输入输出互信息量的计算.根据第p个滑动窗口中的所有数据计算模糊输入特征与输出特征Yp的输入输出互信息量

Step2.2. 根据输入输出互信息量计算各个模糊特征的权重,并根据权重从大到小排列模糊输入特征依次计算排序后相邻权重的梯度.

Step2.3. 初始化候选模糊特征集

Step2.4. 确定候选模糊特征集d≥3时,如果则选取排序后的模糊输入特征中的前d个特征作为候选模糊特征集

Step3. 初始第p个快照中优化模糊特征子集

Step4. 计算模糊特征中的重要度:

(23)

Step5. 选择具有最大重要度的模糊特征.选择满足下面条件的属性:

(24)

Step6. 获取优化模糊特征子集如果H(Fap|并且返回Step4;否则,直接输出

3.6 DFFS-VW算法计算复杂度分析

DFFS-VW算法的时间复杂度取决于模糊特征个数.假设m是所有模糊特征个数,DFFS-VW算法包括离线模糊特征选择和在线模糊特征选择.离线模糊特征选择初始化首先计算各个模糊特征的互信息量,所需要的计算量是O(m),根据互信息量计算各个模糊特征的权重,所需要的计算量是O(m);然后根据权重从大到小对模糊特征进行排序,所需要的计算量是O(m),依次计算排序后相邻模糊特征权重的梯度其中d≥3,如果大于截断点阈值,则选取排序后的模糊特征中的前d个特征作为候选模糊特征集最坏情况下,候选模糊特征集包含的模糊特征个数是m,获取候选模糊特征集所需要的计算量是O(m).最好情况下,候选模糊特征集包含的模糊特征个数是3,因此,获取候选模糊特征集所需要的计算量是O(3),在此基础上,根据综合评价指标不断更新直到综合评价指标不再增加.最坏情况下,所需要的更新次数是m-3,所以得到最终的优化模糊特征子集所需要的计算量是O(m-3).综上所述,无论是最坏情况还是最好情况,该算法的复杂度是O(4m),经化简算法的最终复杂度是O(m).

在线模糊特征选择获取当前窗口的候选模糊特征集的过程与离线模糊特征选择的相似,最坏情况下所需要的时间复杂度是O(m+m+m+m);最好情况下所需要的时间复杂度是O(m+m+m+3),在此基础上,依次计算其余的模糊特征相对于候选模糊特征集的重要度,直到其重要度不大于0,获得最终的优化模糊特征子集,最坏情况下,所需要的计算复杂度数O(m-3).综上所述,该算法的复杂度是O(4m),经化简算法的最终复杂度是O(m).

4 实验结果

4.1 实验环境

本文将DFFS-VW算法与基于邻域粗糙集的动态特征选择算法(incremental feature selection based on fuzzy neighborhood rough set, IFSFNRS)[13]、基于贝叶斯分类器的封装式动态特征选择算法(wrapper feature selection algorithm with incremental Bayesian classifier, WFSIBC)[11]、动态无监督特征选择算法(online unsupervised multi-view feature selection, OMVFS)[20]、改进的动态无监督特征选择(feature selection on data streams, FSDS)[20]对比,选取1个人工合成数据集、UCI数据库中的10个数据集[23]、2个分类数据流[24]和2个回归数据流作为实验数据进行分析,以测试DFFS-VW算法在无需设置任何参数的情况下,算法执行效率、自适应和预测准确性方面均得到提高.对于所有数据,各个维度均进行输入特征模糊化处理,使得数据集中所有数据值均在[0,1]区间.所有实验都在Inter® CPU 2.30 GHz工作台上运行,利用matlab 2014.a软件进行仿真.数据集的详细信息如表1所示:

 

Table 1 Description of Datasets表1 数据集描述

  

Dataset#PatternDimensionalitySD20002BCH13724Glass2149Liver3416Wine17813Yeast14848SEA500003Weather181598AirfoilSelf⁃Noise15035Concrete_Data10308EnergyEfficiency7688RedWineQuality159911WhiteWineQuality489811BeijingPM2.5Data438006PPPTS457309

4.2 评价指标

本文采用2种评价指标对算法的动态特征选择效果进行评价:分类准确率(Acc)和平均绝对百分比误差(MAPE).

 

(25)

其中,ak代表第k个类别中算法的分类结果和实际数据集分类情况相一致的数据个数,|C|是类别个数,n是数据集中包含的数据个数.

 

(26)

其中,yi是第i个样本的实际目标值,是第i个样本的模型预测值.

4.3 滑动窗口对特征选择结果的影响测试

为了分析滑动窗口大小对DFFS-VW算法模糊特征选择结果的影响,本文利用不同数据集形成大小各异的滑动窗口,以数据集70%作为训练集,30%作为测试集,分析比较模糊特征选择的性能.表2分别对比了CMAR(classification based on multiple association rules)分类器[25]、C4.5分类器[26]和DFFS-VW算法对不同大小滑动窗口的模糊特征选择结果的分类性能,其中CMAR中的最小支持度设置为10%,最小置信度为70%,C4.5选取信息增益最大的作为划分节点.从表2可以看出,本文所提方法自动确定窗口大小的分类性能优于人为定义窗口大小的分类性能.表3分别对比了BP神经网络[27]、支持向量回归(support vector regression, SVR) [28]和DFFS-VW算法对不同大小滑动窗口的模糊特征选择结果的预测性能,其中BP神经网络有1层隐含层,隐含层中包含10个节点.SVR的核函数为径向基函数,不敏感系数为0.05,惩罚因子为10.从表3可以看出,本文所提出方法的预测结果优于人为定义窗口大小的预测结果.这是由于本文所提出的窗口大小确定方法根据Hoeffding边界考虑了数据的分布情况,提高了分割后的模糊数据的分类性能和预测性能.

 

Tabel 2 The Comparison of the Classification Accuracy(Acc) for CMARC4.5 on Different Window Sizes表2 不同窗口大小的CMARC4.5分类性能(Acc)对比

  

DatasetTheSizeofWindow5%10%CMARC4.5CMARC4.5TheProposedMethodCMARC4.5SD0.8750.8810.8640.8750.9060.912BCH0.8830.8960.8740.8960.9470.958Glass0.9040.9120.8910.9010.9620.967Liver0.8920.8810.8740.8690.9520.948Wine0.9030.9210.8860.8970.9570.969Yeast0.9110.9160.8950.9030.9630.974SEA0.9210.9340.9040.9120.9830.989Weather0.8780.8960.8580.8690.9480.957Mean0.8960.9050.8810.8900.9520.959

 

Tabel 3 The Comparison of the Prediction Accuracy(MEAP) for BPSVR on Different Window Size表3 不同窗口大小的BPSVR预测性能(MEAP)对比

  

DatasetTheSizeofWindow5%10%CMARC4.5CMARC4.5TheProposedMethodCMARC4.5AirfoilSelf⁃Noise0.1940.1850.1850.1760.1410.042Concrete_Data0.1490.1330.1370.1310.1160.053EnergyEfficiency0.2240.2160.2160.2440.1810.057RedWineQuality0.1740.1610.1680.1590.1240.053WhiteWineQuality0.1530.1420.1440.1360.1040.031BeijingPM2.5Data0.2540.2430.2410.2460.1730.026PPPTS0.2540.2490.2360.2190.1940.057Mean0.1970.1900.1900.1840.1480.043

4.4 特征选择效果测试

为了充分验证DFFS-VW算法的有效性,对比WFSIBC算法、IFSFNRS算法、OMVFS算法和FSDS算法在多个数据集下的特征选择效果.图2给出5种特征选择算法的模糊特征选择结果与原始模糊特征个数的对比结果.从图2可以看出,除数据集SD,经过5种动态特征选择算法后,所选模糊特征个数都比原始模糊特征个数少,算法DFFS-VW最为明显.DFFS-VW算法所选的模糊特征个数均比其余4种算法的少,这是因为DFFS-VW算法根据模糊权重获取候选模糊特征子集,同时考虑输入模糊特征与输出特征的互信息量与输入模糊特征之间的互信息量得到最优模糊特征子集,使得DFFS-VW算法的特征选择效果更加明显.

  

Fig. 2 Fuzzy features comparison of different agorithms on different datasets图2 模糊特征个数对比

表4给出了CMAR分类器和C4.5分类器对原始模糊特征集和3种动态特征选择算法的所选模糊特征集的分类准确性的对比.从表4可以看出,除了SD数据集,DFFS-VW算法所选的模糊特征子集对于CMAR分类器的分类效果最好;经特征选择后,C4.5分类器对于各个数据集的分类准确率均得到了提高,其中DFFS-VW算法所选的模糊特征子集提高得最明显.

表5给出了BP神经网络和支持向量回归对原始模糊特征集和3种动态特征选择算法的所选模糊特征集的预测精确性的对比.从表5可以看出,除SD数据集外,BP神经网络对DFFS-VW算法所选的模糊特征子集的预测精确性最好;经模糊特征选择后,支持向量回归对于各个数据集的预测精确性均得到了提高,其中DFFS-VW算法所选的模糊特征子集提高得最明显.

 

Tabel 4 The Comparison of the Classification Accuracy(Acc) 表4 CMARC4.5分类性能(Acc)对比

  

DatasetOriginalWFSIBCIFSFNRSDFFS⁃VWCMARC4.5CMARC4.5CMARC4.5CMARC4.5SD0.9060.9120.9060.9120.9060.9120.9060.912BCH0.9210.9250.9400.9450.9360.9380.9470.958Glass0.9320.9060.9510.9580.9450.9490.9620.967Liver0.9160.8960.9320.9330.9280.9310.9520.948Wine0.9250.9130.9390.9360.9380.9320.9570.969Yeast0.9150.9240.9430.9460.9280.9350.9630.974SEA0.9230.9090.9560.9610.9440.9250.9830.989Weather0.9190.9180.9450.9430.9360.9280.9480.957Mean0.9200.9130.9390.9420.9330.9310.9520.959

 

Tabel 5 The Comparison of the Prediction Accuracy (MEAP) 表5 BPSVR预测性能(MEAP)对比

  

DatasetOriginalOMVFSFSDSDFFS⁃VWCMARC4.5CMARC4.5CMARC4.5CMARC4.5AirfoilSelf⁃Noise0.2480.0750.1830.0550.2090.0620.1410.042Concrete_Data0.2240.0940.1940.0420.2170.0510.1160.033EnergyEfficiency0.2350.0960.2040.0650.2180.0720.1810.057RedWineQuality0.2320.1040.1810.0670.2050.0690.1240.052WhiteWineQuality0.2060.0870.1920.0640.1860.0680.1040.031BeijingPM2.5Data0.3110.0760.2540.0540.2640.0650.1730.026PPPTS0.3410.1060.2720.0740.2950.0860.1940.057Mean0.2570.0920.2110.0610.2280.0680.1480.043

如图3所示,本文采用不同的数据集对5种不同算法的运行时间进行了对比,可以看出,针对同一个数据集,DFFS-VW算法的运行时间最短.由于FSDS算法利用回归模型提高所选模糊子集的预测正确率,在回归模型寻参期间需要不断迭代,时间复杂度大约为O(n3);WFSIBC算法使用贪婪算法发现最优特征子集,而贪婪算法的时间复杂度是O(n log n),当数据量较大时,算法复杂度也会大幅度地增加;IFSFNRS算法以粗糙邻域为基础,在最坏情况下,需要对整个数据集进行重新特征选择,时间复杂度不低于O(log n2);OMVFS算法将特征选择嵌入到聚类算法中,使得时间复杂度近似为O(knlnL|C|),其中k是迭代至收敛的平均迭代次数,nl是属于第l个聚类的样本个数,L是输入特征个数,|C|是聚类个数,由此可见OMVFS算法的时间复杂度也很大.DFFS-VW算法利用权重梯度选取候选模糊特征子集,减少了最优模糊特征子集的寻找范围,从而减少了算法的运行时间,时间复杂度为O(m),其中m是模糊特征个数.其中,DFFS-VW算法对SD数据集的运行时间最长,对Wine数据集的运行时间最短.从图3可以得出,原始模糊特征个数越多,算法的运行时间越长.

  

Fig. 3 Comparision of the running time for feature selection with different algorithms on different datasets图3 不同数据集上不同算法特征选择运行时间的比较

4.5 模糊特征变权分析

  

Fig. 4 The variable weight of some fuzzy features on the dataset SEA图4 数据集SEA部分模糊特征变权

图4是数据集SEA部分模糊特征在不同滑动窗口中权重的变化,可以看出,滑动窗口W0W4分别包括10 000条样本,随着滑动窗口中数据的不断变化,所选的模糊特征在不断地发生变化.其中,模糊特征的权重在不断减少,在滑动窗口W0中,模糊特征的权重达到了最小,对输出特征几乎没有影响;模糊特征的权重在不断增加,在滑动窗口W4中,模糊特征的权重达到了最大;模糊特征的权重先减小后增大,滑动窗口W0和滑动窗口W4中模糊特征的权重几乎相等.

  

Fig. 5 The effect on classification accuracy of ignoring some fuzzy features on dataset SEA图5 数据集SEA忽略部分模糊特征前后分类准确率

  

Fig. 6 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS图6 数据集PPPTS部分模糊特征权重的演化

为了分析权重变化对分类准确率的影响,以数据集SEA为例,滑动窗口W0W4分别包括10 000条样本,按照的顺序,依次将模糊输入特征从原始模糊输入特征集中忽略,对比忽略前后的分类准确率,结果如图5所示.其中,由于模糊输入特征的权重在不断减少,所以输入特征对分类准确性影响越来越小,在滑动窗口W0中,忽略模糊特征前和忽略模糊特征后的分类准确率几乎相等;模糊特征的权重在不断增加,模糊特征对分类准确性影响越来越大,在滑动窗口W0中,忽略模糊特征前和忽略模糊特征后的分类准确率相差最大;模糊特征的权重先减小后增大,模糊特征对分类准确率的影响先增大后减小.

  

Fig. 7 The effect on predicition accuracy of ignoring some fuzzy features on dataset PPPTS图7 数据集PPPTS忽略部分模糊特征前后预测精确率对比

为了分析权重变化对预测精确性的影响,以数据集PPPTS为例,滑动窗口W0W7分别包括6 000条样本,取其中的4个模糊输入特征各个模糊输入特征的权重在不同滑动窗口的变化如图6所示.从图6中可以看出,随着数据的不断更新,模糊输入特征的权重呈下降趋势,模糊输入特征的权重呈上升趋势,模糊输入特征的权重先上升后下降.依次将以上模糊输入特征从原始模糊输忽略,对比忽略前后的预测准确率,结果如图7所示.其中,由于模糊输入特征的权重在不断减少,所以输入模糊特征对预测精确率影响越来越小,在滑动窗口W7中,忽略模糊特征前后的预测精确率几乎相等;模糊输入特征的权重在不断增加,模糊特征对预测精确率影响越来越大,忽略模糊特征前和忽略模糊特征后的预测精确率的差值在不断变大;模糊特征的权重先增大后减小,模糊特征对预测精确率的影响先减小后增大.

综上所述,DFFS-VW算法无需人为设置参数,能够自动得到最优模糊特征子集,具有良好的自适应性;利用互信息量计算特征之间的相关性,不仅考虑了特征之间的线性关系,还考虑了非线性关系,提高了特征选择结果的分类准确看和预测精确率;考虑各个模糊特征的权重,得到候选模糊特征子集,并采取后向搜索的方式得到离线模糊特征选择的优化模糊特征子集,减少了算法运行时间,提高了算法的效率;将当前窗口的候选模糊特征子集和历史模糊特征选择结果的交集作为当前窗口的初始优化模糊特征子集,根据模糊输入特征相对于初始优化模糊特征子集的重要度,获得最终的优化模糊特征子集.通过不同滑动窗口模糊特征权重的演化趋势,发现模糊输入特征对分类准确性或者预测精确性的影响.

5

本文研究动态模糊特征选择问题,无论是连续数据集,还是类别数据集,以输入特征相对与输出特征的权重作为衡量输入特征相对于输出特征之间的重要性,提出基于特征变权的动态模糊特征选择算法.在离线模糊特征选择中,首先根据特征权重,获取候选模糊特征子集.然后,结合后向特征选择方式和模糊特征筛选指标,筛选候选模糊特征子集得到优化模糊特征子集;在线模糊特征选择中,以上一个滑动窗口的优化模糊特征子集与当前滑动窗口中的候选模糊特征集的交集为基础,根据模糊输入特征在模糊特征子集中的重要度,获得当前窗口中的优化模糊特征子集.更进一步,我们分析了窗口之间模糊特征权重的变化,发现输入模糊特征的演化关系和模糊输入特征对分类准确性或者预测误差的影响.实验结果表明了本文所提动态模糊特征选择算法的有效性.但目前的滑动窗口实质上仍然是在离线采集数据的基础上反复学习获得的,本文未来将研究随着在线数据变化,自适应地确定滑动窗口大小,进一步提升动态模糊特征选择算法的性能.

参考文献

[1]Xiao Jin, Xiao Yi, Huang Anqiang, et al. Feature-selection-based dynamic transfer ensemble model for customer churn prediction[J]. Knowledge and Information Systems, 2015, 43(1): 29-51

[2]Zhang Xiangrong, He Yudi, Jiao Licheng, et al. Scaling cut criterion-based discriminant analysis for supervised dimension reduction[J]. Knowledge and Information Systems, 2015, 43(3): 633-655

[3]Guyon I, Elisseeff A. An introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3(3): 1157-1182

[4]Li Dan, Zhou Yuxun, Hu Guoqiang, et al. Optimal sensor configuration and feature selection for AHU fault detection and diagnosis[J]. IEEE Trans on Industrial Informatics, 2016, 13(3): 1369-1380

[5]Siwek K, Osowski S. Data mining methods for prediction of air pollution[J]. International Journal of Applied Mathematics and Computer Science, 2016, 26(2): 467-478

[6]Soguero-Ruiz C, Hindberg K, Rojo-Alvarez J, et al. Support vector feature selection for early detection of anastomosis leakage from bag-of-words in electronic health records[J]. IEEE Journal Biomedical Health Informatics, 2014, 20(5): 1404-1415

[7]Zhao Peilin, Steven C, Jin Rong. Double updating online learning[J]. Journal of Machine Learning Research, 2011, 12(may): 1587-1615

[8]Kohavi R, John G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997, 97(1/2): 273-324

[9]Zhou Yang, Jin Rong, Steven C. Exclusive lasso for multi-task feature selection[J]. Journal of Machine Learning Research, 2010, 9: 988-995

[10]Wang Jialei, Zhao Peilin, Steven C, et al. Online Feature selection and its applications[J]. IEEE Trans on Knowledge & Data Engineering, 2006, 26(3): 698-710

[11]Li Yang, Gu Xueping. Feature selection for transient stability assessment based on improved maximal relevance and minimal redundancy criterion[J]. Proceedings of the Chinese Society of Electrical Engineering, 2013, 33(34): 179-186 (in Chinese)

(李扬, 顾雪平. 基于改进最大相关最小冗余判据的暂态稳定评估特征选择[J]. 中国电机工程学报, 2013, 33(34): 179-186)

[12]Naqvi S S, Browne W N, Hollitt C. Feature quality-based dynamic feature selection for improving salient object detection[J]. IEEE Trans on Image Processing, 2016, 25(9): 4298-4313

[13]Zhao Wei, Wang Yafei, Li Dan. A dynamic feature selection method based on combination of GA with K-means[C] //Proc of the Int Conf on Industrial Mechatronics and Automation. Piscataway, NJ: IEEE, 2010: 271-274

[14]Raza M S, Qamar U. An incremental dependency calculation technique for feature selection using rough sets[J]. Information Sciences, 2016, 343(12): 41-65

[15]Bilal I S, Keshav P D, Alamgir M H, et al. Diversification of fuzzy association rules to improve prediction accuracy[C] //Proc of the Int Conf on Fuzzy System. Piscataway, NJ: IEEE, 2010: 1-8

[16]Jing Yuege, Li Tianrui, Luo Chuan, et al. An incremental approach for attribute reduction based on knowledge granularity[J]. Knowledge-Based Systems, 2016, 104(7): 24-38

[17]Shao Weixiang, He Lifang, Lu Chunta, et al. Online unsupervised multi-view feature selection[C] //Proc of the 16th Int Conf on Data Mining. Piscataway, NJ: IEEE, 2016: 1203-1208

[18]Huang H, Yoo S, Kasiviswanathan S P. Unsupervised feature selection on data streams[C] //Proc of the 24th ACM Int Conf on Information and Knowledge Management.newyork. New York, ACM, 2015: 1031-104

[19]Li Yun, Wu Zhongfu. Fuzzy feature selection based on min-max learning rule and extension matrix[J]. Pattern Recognition, 2008, 41(1): 217-226

[20]Lughofer E. On-line incremental feature weighting in evolving fuzzy classifiers[J]. Fuzzy Sets & Systems, 2011, 163(1): 1-23

[21]Du Lei, Song Qinbao, Jia Xiaolin. Detecting concept drift: An information entropy based method using an adaptive sliding window[J]. Intelligent Data Analysis, 2014, 18(3): 337-364

[22]Wang Ling, Meng Jianyao. The dynamic clustering algorithm of Bayesian adaptive resonance theory based on local distribution[J]. Control and Decision, 2018, 33(3): 471-478 (in Chinese)

(王玲, 孟建瑶. 基于局部分布的贝叶斯自适应共振理论增量聚类算法[J]. 控制与决策, 2018, 33(3): 471-478)

[23]Comas D S, Meschino G J, Nowe A, et al. Discovering knowledge from data clustering using automatically-defined interval type-2 fuzzy predicates[J]. Expert Systems with Applications, 2016, 68(2): 136-150

[24]Ghazikhani A, Monsefi R, Yazdi H S. Online neural network model for non-stationary and imbalanced data stream classification[J]. International Journal of Machine Learning and Cybernetics, 2014, 5(1): 51-62

[25]Li Wermin, Han Jiawei, Pei Jian. CMAR: Accurate and efficient classification based on multiple class-association Rules[C] //Proc of 2001 IEEE Int Conf on Data Mining (ICDM). Piscataway, NJ: IEEE, 2001: 369-376

[26]Mu Yashuang, Liu Xiaodong, Yang Zhihao, et al. A parallel C4.5 decision tree algorithm based on MapReduce[J]. Concurrency and Computation, 2017, 29(6): 1-12

[27]Cui Yongfeng, Ma Xiangqian Li, Liu Zhijie. Application of improved BP neural network with correlation rules in network intrusion detection[J]. International Journal of Security and Its Applications, 2016, 10(4): 423-430

[28]Wang Lihuan, Guo Yonglong, Xin G. An asymmetric weighted SVR for construction final accounting prediction[J]. Journal of Information and Computional Science, 2014, 11(5): 1387-1394

 
王玲,孟建瑶
《计算机研究与发展》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号