更全的杂志信息网

基于频繁项自适应学习的分类算法

更新时间:2009-03-28

随着网络信息技术的发展,海量的数据通过网络数据库实现信息的存储和传输.在大数据信息时代,需要对各种大数据进行规则性处理和分析,提取大数据中有用的信息特征,为用户进行大数据信息分析、挖掘其中的相关信息参数服务.研究大数据的分类方法,实现对大数据的分类挖掘和特征提取,在大数据挖掘和数据库访问中具有重要意义[1].

大数据分类挖掘过程是集数据特征提取、数据信息融合、数据降噪提纯及数据分类等为一体的信息处理过程.其中,数据分类是实现数据挖掘的基础.数据分类采用信息聚类搜索方法进行数据属性区分,结合自适应学习方法实现特征提取和数据的模糊聚敛.传统方法中,大数据分类方法主要有模糊K均值聚类算法、模糊C均值算法和层次类别分割算法等[2-3],这些算法通过提取反映数据类别属性的特征量,结合模糊子空间划分方法构造数据聚类中心以实现数据分类.采用层次聚类的数据分类算法是把一个类别当作有层次分别的.在层次聚类中,随着类别层次的变化,对象也发生变化.层次类别算法分为融合法和分裂法.层次聚类算法的优点是它适用于任意形式的相似度和距离的数据类别,对聚类粒度具有灵活性;缺点是终止条件不精确,难以适应动态的数据集.基于分割聚类的大数据分类算法是将数据集分为若干子集,反复调整聚类结果来进行聚类优化.典型的分割聚类算法为模糊K均值聚类算法,该算法对数据属性具有较好的统计和几何意义,对顺序不大敏感,可在任意范数下进行聚类;缺点是对初始聚类中心较敏感,经常得不到全局最优解.网格分类方法适用于各种类型属性的数据,但随着数据规模的扩大,数据分类的准确性不高.

省农业农村厅畜牧处处长张庚武、副处长张力圈,国家蛋鸡产业技术体系保定综合试验站站长郑长山、农业产业技术体系生猪创新团队废弃物与资源化利用岗位专家王占武、蛋肉鸡创新团队顾问臧素敏等应邀参加会议。来自全省的各岗位专家、试验推广站站长、企业试验推广站负责人、示范场负责人、企业代表共计80余人参会。

结合上述数据分类算法,相关文献进行了改进研究.文献[4]提出了一种基于近邻传播与密度相融合的进化数据流聚类算法,利用差分近邻传播算法的全局搜索能力进行聚类中心搜索,求出数据聚类的模糊划分函数,提高了数据分类的查准性,但该方法计算开销较大且实时性不好;文献[5]提出了一种基于语义信息融合的模糊C均值大数据分类算法,提取大数据信息流的语义关联性特征,以此作为信息素进行聚类中心搜索以实现数据优化分类,该方法在出现类间频繁项扰动的情况下分类性能不好.

为了克服传统方法的弊端,本研究提出了一种基于频繁项自适应学习的大数据优化分类算法.采用奇异值分解将大规模的数据问题变为一系列小规模特征分解运算,降低了计算开销,并采用分段预白化匹配滤波算法进行类间闭频繁项干扰抑制处理,提高了抗干扰能力和泛化能力.该方法利用高阶累积量特征的自适应聚焦学习能力,有效保证了数据分类中的全局收敛性.

日记,就是用手中的笔将生活中的点点滴滴记录下来。用眼睛观察,用心灵感受,写日记便成了一件有趣的事。在我看来,写日记不仅仅是完成一项作业,更重要的是我对生活的记录和回忆。

1 大数据高斯随机序列分析及预处理

1.1 大数据高斯随机序列分析

式中:e为误差项,它表示大数据信息流的高阶特征分布Y的测量误差.结合对大数据先验信息的采集结果,得到n组大数据信息流的高斯随机分布观测值:

《脊柱截骨矫形学》是研究和介绍脊柱截骨矫形手术的专著。其内容重点突出而全面,且编排独特,在表达和叙述上以图文结合,简明扼要,直观生动,是一部当前临床实践需要、颇具参考价值具有教学意义的专著。《脊柱截骨矫形学》的出版,扩大了截骨矫形术的应用范围,使截骨矫形术配合植置入器械内固定的治疗范围更进一步拓宽,解决了以往单纯器械所难解决的问题,使脊柱截骨术在矫正脊柱畸形的临床应用中更进一步被脊柱外科同道们认可。直至目前,在国际上尚未见有专门论述脊柱截骨矫形术的出版专著,故这本书为全世界补白的一本书。

Y=β0+β1X1+β2X2βm-1Xm-1+e,

(1)

为了实现对大数据的优化分类,采用时间序列分析方法构建大数据信息流的分布式结构模型.假设Y为大数据高斯随机分布的因变量,X1X2,…,Xm-1为对Y的分类属性具有显著性差异特征的m-1个自变量,得到大数据的高斯随机分布线性关系:

U(i)=diag(Uij), j=1,2,…,p(i),可知,U(i)仍为正交矩阵.在对整个特征空间中的数据进行频繁项滤波和自适应学习处理后,输出的大数据分类结果的矩阵满足

(xi1xi2,…,xim-1yi),i=1,2,…,n,

(2)

满足

“乡愁”“童年记忆”“情怀”“家人”等词语体现了游客入住民宿的情感价值。所谓情感价值主要指的是入住民宿的体验对于人情感的影响,即民宿及民宿体验从整体上有益人的心理,强化人的认知,呼应人的情感,进而强化游客的认同感和精神象征。“远离了大城市的喧嚣,民宿让我忆起了淡淡地乡愁”“住在民宿里竟然体会到家的感觉,五湖四海的小伙伴更是像家人一样彼此照顾”“蛙叫蝉鸣都是童年的记忆”等游客评论,体现了游客与具体的生活环境即民宿体验的过程中,建立起了一种复杂情感联系,形成了一种充满记忆的情感体验。

 

(3)

且误差项e满足局部平稳高斯随机分布特性.通过上述分析,采用高斯随机序列分析方法进行大数据信息流模型的构建.在特征分布空间中,通过XY求得大数据的滑动窗口数据流在频繁项集D中包含X的占空率并得到包含Y的百分比,由此构造两个相邻时间段内数据信息流的查询条件概率P(X|Y),得到大数据分段属性集:

confidence(X

(4)

在区域置信度中定义支持度描述大数据的分布惯性权重W={w1,…,wp},设特征相似度结点为C((AB),P),大数据属性集本体之间的分段映射约束条件满足P(AB)=TRUE,Aρ(G)称为相似度传播图模型,Bρ(M)称为数据存储空间内每个概念结点的上下位关系映射且AB同时满足以下两个条件:

在重组的特征空间中提取大数据信息流的高阶累积量特征[9],在局部平稳高斯色噪声环境中,将Y(i)分解为p(i)个大小为Nij×1的子矩阵Yij,得到高阶累积量特征提取输出

(2)B=A′={mM|∀gA},

AB中所有属性的对象集,即本体映射的父概念(super-concept),BA中满足条件P的公理集合.采用线性分段技术进行大数据时间片段的预白化处理和特征重组,进行大数据高斯随机序列分析,为进行大数据优化分类提供特征信息输入基础.

1.2 大数据奇异值分解和特征空间重组

通过奇异值分解,对扩展数据项不断更新,求解不确定数据集中的频繁项集分布矩阵,描述为在频繁项类间干扰抑制后,输出大数据聚类的特征向量和约束向量:

Y=+e

(5)

式中:Yn×1维的空间分布特征向量;Xn×m的分类属性分布矩阵; βm×1的大数据分类的参数向量;en×1的随机误差向量.采用最小二乘估计对β进行一致性估计,当‖Y-‖达到最小,表示对大数据分类处理的计算开销最小.用‖‖表示欧氏范数中的F范数,将数据分成P个分块,将大数据分布式时间序列的奇异值分解问题表示为

 

(6)

对于大数据聚类奇异矩阵A,当有n阶正交矩阵Um阶正交矩阵V,使得A=UΣVT,表示对矩阵A的奇异值分解.在对大数据进行了合理分段后,使得大数据的聚类特征向量ΣRn×m,且为每个数据段的奇异值分解矩阵ATA的非零特征值全体.对特征向量进行降序排列,得到A的奇异值表示大数据分类的聚类中心矢量[7].根据上述处理,实现了对大数据信息流的特征分解和特征空间重组,将大规模的数据问题变为一系列小规模特征分解运算,有效地降低了数据分类运算的规模.

鲨鱼的宿命并不比鳕鱼好到哪里去,看过《海洋》的人,都会对鲨鱼被割掉背鳍和尾鳍,然后被活生生地丢回大海的片段感到难过。在唱诗班沉重低吟的音乐背景下,鲨鱼习惯性地试图摆动业已不见的鳍,痛苦而绝望地坠入海底,等待死亡。我真希望你没有看到这一幕。“它们花了几百万年进化到今天,却在几十年内消失了,因为人类”——环保主义者说人类是“地球之癌”。我希望你长大后,能成为一个有反省能力的人,能过一种更有意思的生活,懂得人的局限,懂得自然之美,并且和自然万物和平共处。

2 大数据分类算法的改进

2.1 频繁项干扰抑制处理

在进行上述大数据信息流的特征分解和重组的基础上,进行大数据分类处理.为了提高大数据在存在类间闭频繁项干扰下的分类提取能力,本研究提出了一种基于频繁项自适应学习的大数据优化分类算法.采用分段预白匹配滤波方法进行滤波处理,能有效抑制数据分类过程中的类间干扰.预白化匹配滤波具有解除时频耦合和抑制噪声的特性,选择合适的滤波系数和滤波器阶数,可使干扰分量在后置处理器中实现频谱聚焦,从而实现有效滤除,提高数据分类的抗干扰和泛化能力.因此,采用分段预白化匹配滤波进行类间闭频繁项干扰抑制处理具有优越性[8].分段预白化匹配滤波传递函数描述如下:

 

(7)

式中的Cβ无关.在对大数据分段白化处理中,通过迭代不断缩小矩阵规模,即

 

(8)

假设数据集D包含t组频繁项干扰项,Ti中每一个项x都与一个概率p(xTi)关联,通过匹配滤波,得到输出不确定数据集中的频繁项集

 

(9)

在大数据分类挖掘中,为了降低运算开销和数据处理规模,在进行大数据信息流模型构建的基础上,还需要对大数据分布式时间序列进行奇异值分解和特征空间重组[6].在大数据特征分布满足高斯-马尔科夫假设的情况下,将大数据高斯随机序列的线性映射形式改写为矩阵形式:

Ni1=N12=…=Nip(i)-1=L

Nip(i)=N(i)-(p(i)-1)L .

可见,采用分段预白化匹配滤波进行类间闭频繁项干扰抑制,消除了数据集中的频繁项集对分类结果的影响,在滤波器输出端抵消了混响,从而降低了类间干扰数据的影响,有效提升了大数据分类的局部平稳性和泛化性.

2.2 特征提取及模糊K均值分类

(1)A=B′={gG|∀mB},

 

(10)

对第k+1段数据进行预白化处理,提取第j个子空间中高斯随机分布序列Xij的高阶累积量,利用高阶累积量的后置聚焦性进行数据聚类,并执行奇异值分解

 

(11)

式中:右侧矩阵存在奇异的分解矩阵分别记为以上述提取的高阶累积量为匹配特征量,采用模糊K均值聚类方法进行数据分类,得到两个数据聚类中心向量

 

(12)

 

(13)

由式(12)、(13)可见,对聚类中心的搜索过程是一个自适应学习过程,结合频繁性自适应学习方法进行迭代搜索[10-11],根据第k段数据估计的高阶累积量特征,得到相邻数据段之间的分类间隔满足

 

(14)

根据第k+1段数据高阶累积量与第k段数据高阶累积量的差异,可得数据分类的全局稳定性泛函满足

 

(15)

(1)利用保密点检测:是指将通过空三采集的保密点与DOM上对应的地物点的坐标进行比较,计算检测点坐标的较差并统计平面位置中误差。

(16)

记后缀项的向量量化矩阵Xij的秩为rijrijm,则的维数分别为rij×rijNij×rijm×rij.采用模糊子空间划分方法,得到大数据分类的行向量X(i+1)和列向量Y(i+1)的维数为

纳入标准:①老年高血压患者;②年龄≧60岁;③所有患者主要表现为鼻腔反复出血或一次性大量出血,出血量>200ml,采用填塞法治疗无效,手术时均在急性出血期;④血常规及凝血时间等指标正常。

 

(17)

式中:通过自适应寻优,使得输入矩阵规模变小,从而降低了大数据分类的计算开销,降低了运算规模,也有效满足了整个分类过程的全局收敛性.

3 仿真实验与结果分析

为了测试本方法在实现大数据分类中的应用性能,进行仿真实验.实验采用Matlab 7 仿真工具,测试数据集来自云数据库ESSCE,训练数据集来自Wine数据库,给定数据点的分离度为1.23,类间频繁项干扰的信噪比设定为-12 dB,重组的特征空间两个临界值mL分别取值为2.25和3.98,分段预白化处理的迭代次数K1=456,K2=240.设置自适应学习的步长为r1=r2=1,聚类中心的分类间隔p1=2,模糊K均值聚类的嵌入维数为R=12,L2=12,数据的离散采样率为fs=10×f0=10 kHz.根据上述仿真环境和参数设定进行大数据分类仿真,在不同的分段区间内进行数据采样,得到测试数据和训练数据集采样数据的时域波形,如图1所示.

这里 s表示向量,其第i个元素为 si,i=1,2,...,n是个常数。而对称矩阵B称为模块度矩阵,其元素为:

  

图1 大数据时域采样波形Fig.1 Time domain sampling waveform of large data

分析图1得知,原始的数据受到类间频繁项集的干扰,导致数据中掺入了杂质,使得数据分类和特征的提取效果不好.对此,采用本方法进行分段预白化匹配滤波,实现了闭频繁项干扰抑制处理,提取了大数据信息流的高阶累积量特征,得到的特征提取结果如图2所示.

以图2中提取的特征量作为信息指向性因素进行大数据分类,得到的分类图谱输出如图3所示.

  

图2 特征提取结果Fig.2 Feature extraction results

  

图3 大数据分类图谱输出Fig.3 Output of large data classification map

  

图4 大数据分类性能对比Fig.4 Classification performance comparison of big data

分析图3结果得知,采用本方法进行大数据分类,各个类别属性的数据互不重叠,实现了准确的数据聚类和分类识别,避免了误分和错分,全局收敛性较好.为了对比算法性能,采用本方法和传统分类方法进行对比,得到数据分类误分率对比如图4所示.

分析图4得知,本方法的分类误差较小,整个学习过程的迭代次数较少,说明其自适应学习能力较强,具有很强的抗干扰能力,全局收敛性较好.

耳边又响起鲍德里亚老爷子振聋发聩的声音,也许我并不是想要让嘴唇看上去更红,我可能只是想要这支口红带来的气场,以及使用这个品牌营造出的心里舒适和虚幻阶级感。毕竟,连码农的格子衬衫都从几年前的真维斯升级为巴宝莉了。

4 结语

本研究提出了一种基于频繁项自适应学习的大数据优化分类算法,对大数据分布式时间序列进行奇异值分解和特征空间重组,引入频谱和混响数据,得到大数据融合信息矩阵,采用分段预白化匹配滤波进行类间闭频繁项干扰抑制处理,提取的高阶累积量为匹配特征量,采用模糊K均值聚类方法进行数据分类.研究表明,用本方法进行大数据分类的误分率较低,收敛性较好,提高了数据分类的抗干扰能力和准确性,在大数据信息处理中具有很高的应用价值.

参考文献:

[1] 邢淑凝,刘方爱,赵晓晖.基于聚类划分的高效用模式并行挖掘算法[J].计算机应用,2016,36(8):2202-2206.

[2] PALOMARES I,MARTINEZ L,HERRERA F.A consensus model to detect and manage non-cooperative behaviors in large scale group decision making[J].IEEE Transaction on Fuzzy System,2014,22(3):516-530.

[3] 孙力娟,陈小东,韩崇,等.一种新的数据流模糊聚类方法[J].电子与信息学报,2015,37(7):1620-1625.

[4] 邢长征,刘剑.基于近邻传播与密度相融合的进化数据流聚类算法[J].计算机应用,2015,35(7):1927-1932.

[5] MAREY M,DOBRE O A,LIAO B.Classification of STBC system over frequency-selective channels[J].IEEE Transactions on Vehicular Technology,2015,64(5):2159-2164.

[6] 侯森,罗兴国,宋克.基于信息源聚类的最大熵加权信任分析算法[J].电子学报,2015,43(5):993-999.

[7] 毕安琪,王士同.基于Kullback-Leiber距离的迁移仿射聚类算法[J].电子与信息学报,2016,38(8):2076-2084.

[8] 刘俊,刘瑜,何友,等.杂波环境下基于全邻模糊聚类的联合概率数据互联算法[J].电子与信息学报,2016,38(6): 1438-1445.

[9] 吴鸿华,穆勇,屈忠锋,等.基于面板数据的接近性和相似性关联度模型[J].控制与决策,2016,31(3):555-558.

[10]梁聪刚,王鸿章.微分进化算法的优化研究及其在聚类分析中的应用[J].现代电子技术,2016,39(13):103-107.

[11]米捷,张鹏,于海鹏.粒子群差分扰动优化的聚类算法研究[J].河南工程学院学报(自然科学版),2016,28(1):63-68.

 
于海鹏
《河南工程学院学报(自然科学版)》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号