更全的杂志信息网

基于快速Spark人工智能架构的大数据挖掘算法

更新时间:2009-03-28

随着云计算技术的迅速发展,各种碎片化分布式架构大数据应用挖掘技术也呈现日新月异的变革过程,信息挖掘的对象从过去的整体化、集中结构化日益朝着碎片化及分布式的部署模式发展[1]。为充分实现信息资源的有效利用,促进大数据挖掘的人工智能化以及投资效益的集中化,人们提出了很多具有前瞻性的基于人工智能技术的大数据信息应用挖掘算法,在国民经济的智能4.0工业的建设中起到了重要的作用[2]

当前常见的大数据信息应用挖掘算法主要集中于云网络中数据关联性挖掘以及频繁数据动态获取挖掘领域,在一定程度上满足了云网络技术的普及需求。Dong.X.Q[3]等提出了一种基于分布关联数据评估机制的大数据信息应用挖掘算法,该算法通过周期机制对云网络中数据的分布特性进行捕捉,采取随机分布模型进行指纹建模,能够实现数据分布稀疏状态下的精确挖掘;不过该机制需要对网络中的节点信息进行大规模分散提取,一旦网络规模较大时将降低该算法的鲁棒性,且挖掘效率明显下降。Zuo.K[4]等提出了一种基于维度参数共线性挖掘机制的大数据信息应用挖掘算法,采取矩阵映射方式对云网络数据频繁抖动特性进行特征建模,能够实现复杂网络环境下的信息高效挖掘,且信息误挖掘率较低;然而该算法需要将云网络节点数据特征进行矩阵列向量正交化过程,若节点数据相似性较高,则该算法的信息挖掘效率将明显下降。Huang.Q[5]等采取供应链挖掘机制,通过云网络评估用户数据的行为模型,能够实现对云网络数据动态挖掘,且挖掘过程稳定,抗干扰性能较好,特别适合动态行为较多的数据挖掘过程,然而由于该算法需要预先进行用户行为数据的建模,若预热过程较短,则将由于算法模型挖掘数据不充分而导致该算法的数据挖掘效果较差,使得该算法的实际应用领域大大受限。

针对当前实践中遇到的问题,提出了一种基于快速spark人工智能架构的大数据信息应用挖掘算法,采取动态生成树的方式,构建数据集合和用户行为模型,大大提升了挖掘过程的稳定性且适用性较高,具有良好的数据挖掘性能。最后通过仿真实验证明了本文算法的优越性。

在探究造林密度与枝下高之间的关系时,密度由2 900 株/hm2增至3 700 株/hm2时,平均枝下高无明显变化,其原因可能为在此密度区间内没有细化造林密度。密度增加时,油松纯林的蓄积量和保存率均下降,表明低密度下油松个体间竞争小,油松能够获得正常发育所需的营养,各指标生长较好,可以得出适当的造林密度为1 800 株/hm2左右,与李俊义[14]得出的油松林密度应保留在1 500~2 000 株/hm2的结论相符合,但低于1 800 株/hm2时油松的生长状况,需要作进一步调查。

1 本文大数据挖掘算法

本文的大数据应用挖掘算法由两个步骤组成,①事物垂直管辖维度综合控制机制;②spark动态行为挖掘机制。通过事物垂直管辖维度综合控制机制,能够将分片信息离散化,实现网络数据的高维度分割挖掘,且便于将挖掘的数据以离散化形式进行分布式挖掘;通过spark动态行为挖掘机制,能够快速形成挖掘数据集,且能够极大的降低挖掘过程中的冗余度,改善因离散挖掘而导致的周期收敛难题,提高大数据信息应用挖掘的准确度。

根据齿圈的实际使用情况,与起动机齿轮啮合时的进入端受冲击力较大,工作频次大,即齿圈的倒角端与齿圈的非倒角端面承受不同的载荷,对齿圈两端面的淬硬层深度要求不同,硬度也不相同,并且为了保证齿的使用寿命,且淬硬层不能过齿根圆,这就是所谓的“阴阳脸”。在实际加工过程中虽然由于某些因素会导致“阴阳脸”的产生,但是这些“阴阳脸”属于热处理缺陷,无法精确控制。

1.1 事物垂直管辖维度综合控制机制

考虑到云网络条件下数据挖掘呈现的动态性及用户行为的弱预测性[6],且动态行为存在spark分布特性[7],因此本文通过数据模式树构建及用户行为挖掘两个过程构建事物垂直管辖维度综合控制机制,实现对数据的综合控制,详细过程如下。

1.1.1数据模式树构建

其中,FHT(st)——映射强度;β(x)——第M节点数据用户行为强度;M——集合大小;FHT(·)——离散傅氏变换;tan(·)——正切映射;ctg(·)余切映射;

  

图1 数据模式树

1.1.2用户行为挖掘

(4)采用RSO机制(Random Sequence Optimization)再次对H1H2H3,…,Hm进行结构混淆,产生结构化spark挖掘序列U

  

图2 用户行为挖掘树

1.2 spark动态行为挖掘机制

虽然采取事物垂直管辖维度综合控制机制能够成功获取数据模式树和用户行为树两种数据模型,然而由于这两种模型之间的关联度不够,难以形成规模挖掘效应,因此本文构建spark动态行为挖掘机制,首先将全部的数据总量集合u<1,2,…,n>看成是挖掘源空间,通过傅里叶调和变换机制(Fourier Harmonic Transformation,FHT机制)及随机序列优化机制(Random Sequence Optimization,RSO机制)对动态行为进行spark挖掘,以便形成最终挖掘集合,详细过程见图4,过程如下:

(1)对数据总量集合u<1,2,…,n>按列排列,采取傅里叶调和变换将离散状态的数据模式树和用户行为数进行耦合排序[9],形成spark挖掘序列:

(2)基于随机序列变换[10],对式(1)形成的spark挖掘序列U1U2U3,…,Um进行随机序列变换,形成spark二次挖掘序列F1F2F3,…,Fm

图4~5显示了在不同的挖掘强度下本文算法与SCM算法及SGM算法在挖掘时间上的对比情况,由图可知,本文算法在低强度挖掘和高强度挖掘两种情况下,挖掘时间均要远远小于SCM算法及SGM算法,且本文算法所对应的挖掘时间变化也较为平缓,这是由于随着挖掘强度的不断提高,用户行为挖掘的复杂性也不断上升,因此导致挖掘时间也呈现不断上升的趋势;然而SCM算法及SGM算法均采用简单向量树生成机制,在用户行为挖掘过程中单纯采取时间最优策略的方式对数据进行挖掘评估,未对数据集合总量进行综合性判断,因此导致挖掘时间要高于本文算法,挖掘效率较差;本文算法通过事物垂直管辖维度综合控制机制,能够在挖掘用户行为的同时,整合节点数据资源,实现多维一体的数据挖掘,因此本文算法的挖掘时间要低于对照组算法,具有很高的挖掘效率。

《尔雅·释诂下》:“鸠,聚也。 ”郝懿行义疏:“鸠者,勼之叚音也”。邵瑛《群经正字》“勼,今经典统借用鸠字”。经典中常用“鸠”来表示“聚集”,而“勼”不常用。

 

(1)

首先针对云网络中节点数据进行全面扫描,获取各个节点的数据总量集合u<1,2,…,n>,从该数据集合中取得数据量最大的节点i作为初始挖掘节点,将剩余的节点数据进行再排序,得到新的数据总量集合u<1,2,…,i-1,i+1,…,n-1>,并将节点的数据总量u<i>作为根节点,见图1;每个周期均对数据总量集合u<1,2,…,n>进行再挖掘,将数据总量按照降序依次递归未当前周期的根节点,从而形成数据模式树。

U1U2U3,…,Um

(3)采用RSO机制(Random Sequence Optimization)对spark二次挖掘序列F1F2F3,…,Fm进行结构混淆[11],结合U1U2U3,…,Um并再次启动RSO机制流程,直到网络中全部节点数据被挖掘完毕为H1H2H3,…,Hm

考虑到云网络中用户行为与节点状况密切相关[8],即数据形成和挖掘过程与用户的行为次数未呈现正向波动关系,因此对图2所示的数据模式树形成过程中的用户行为,按照挖掘周期进行排序,将用户用户行为密度高的节点对应的数据总量u<i>按照二叉树进行排列,见图2,形成用户行为挖掘树。

根据2.2节中所得到的目标回波信息值对SHNN-CAD异常程度计算权值进行改进。目标回波间隔距离小于或等于α且信息值越相近,该目标回波是SST的概率也就越大。相反,则目标回波是杂波的概率也就越大。为了提高对这类目标回波的检测能力,把目标回波间隔距离小于或等于α且信息值相近的目标回波信息值进行累加并把累加结果作为该区域目标回波SHNN-CAD异常程度计算权值。

 

(2)

  

图3 spark动态行为挖掘机制

2 仿真实验

为评估本文算法的优越性能,使用Matlab仿真环境[11],对照组算法为当前云网络技术中常用的空间共线度挖掘算法(Spatial Collinearity Mining algorithm,SCM算法)[12]超混沌粒度挖掘算法[13](Super Granularity Mining algorithm,SGM算法),仿真参数如下。

 

表2 仿真参数表

  

参数数值云网络区域6000km×2400km挖掘周期(h)10min用户数量>1,024,000,000节点个数>1,024,000,000挖掘强度>96Kbit/s

其中spark映射方式如下:

  

图4 挖掘时间测试(低挖掘强度)

  

图5 挖掘时间测试(高挖掘强度)

图6~7 显示了在不同的挖掘强度下本文算法与SCM算法及SGM算法在数据错误挖掘率上的对比情况,由图可知,本文算法在低强度挖掘和高强度挖掘两种情况下,数据错误挖掘率均要远远小于SCM算法及SGM算法,且本文数据错误挖掘率的波动幅度较小,表明本文综合挖掘用户行为及节点数据的方式,具有很高的挖掘准确性,能够极大的改善数据挖掘的质量,进一步提高算法对各种复杂环境的适应性能;与SCM算法及SGM算法仅采取用户行为挖掘的方式相比,具有明显的优势。

  

图6 错误挖掘测试(低挖掘率)

  

图7 错误挖掘测试(高挖掘率)

结束语

针对当前大数据信息应用挖掘领域存在的挖掘模式复杂,难以进行动态挖掘,挖掘性能较差等难题,提出了一种基于快速spark人工智能架构的大数据信息应用挖掘算法,通过离散化的方式构建生成树的方式,实现事物垂直管辖维度综合控制机制,且在该机制的基础上对数据挖掘集合进行通过spark动态行为挖掘,大大降低了挖掘过程中存在的效率低下的问题,仿真实验表明:本文算法的数据挖掘优势明显,能够大大降低数据错误挖掘的概率且挖掘时间要显著优于当前常用的算法。

WindML包含软件开发工具包(SDK)和驱动开发工具包(DDK)2个组件,其中:SDK用来实现应用程序的开发;DDK用来实现驱动程序的开发。WindML能满足嵌入式计算机的所有图形要求,保证开发人员在VxWorks实时操作系统上建造功能齐全、丰富多彩、可嵌入式的图形界面。[1]

下一步将考虑本文算法在流动性较强的应用场景中存在的挖掘效率较低的问题,采用离散化空间超混沌映射机制改善本文算法的性能,提高本文方案对实际应用场景的适应性。

参考文献

[1]Yong.C, Wang.Z.Y. Efficient revocation in ciphertext-policy attribute-based encryption based cryptographic cloud storage[J]. Journal of Zhejiang University-Science C, 2013, 02(5):85-97.

[2]章韵, 巨德文.基于可预测移动汇聚节点的云网络传输算法研究[J].计算机科学,2012,06(9):89-92.

[3]Dong.X.Q.A novel block encryption scheme based on chaos and an S-box for wireless sensor networks[J]. Chinese Physics B, 2012, 02(15):175-186.

[4]Zuo.K. Public-key encryption and authentication of quantum information[J]. Science China, 2012, 09(7):1618-1629.

[5]Huang.Q.Generic Certificate less Encryption Secure Against Malicious-but-Passive KGC Attacks in the Standard Model[J]. Journal of Computer Science & Technology, 2010, 04(11):807-826.

[6]Ren.Z.B.Secure and noise-free holographic encryption with a quick-response code[J]. Chinese Optics Letters, 2014, 01:9-12.

[7]Sun.H.A Hybrid Optimization Approach for the Capacity Vehicle Routing Problem[J]. Journal of Shanghai University(Science),2016,01(2):34-39.

[8]Li.J.data transmission scheduling algorithm for rapid-response earth-observing operations[J].Chinese Journal of Aeronautics,2014,02(7):349-364.

[9]wang.H,Jin.S.Prediction or not?An energy-efficient framework for clustering based data collection in wsn[J].Parallel and Distributed Systems,IEEE Transactions,2011,22(6):1064-1071.

[10]Li.Z, Xi.L, Hong.J.Cross-Layer Adaptive Resource Allocation Algorithm with Diverse QoS Requirements for Single-Cell OFDMA Systems[J]. Journal of Harbin institute of Technology, 2015, 01(1):15-22.

[11]Ahmed.A, Abu.B.K, Chan.N.M.. A survey on trust based detection and isolation of malicious nodes in ad-hoc and sensor networks[J].Frontiers of Computer Science,2015, 12(7). 280-296.

[12]Qian.J.L.Fully Secure Revocable Attribute-Based Encryption[J].Journal of Shanghai Jiaotong University,2011,04(120):490-496.

[13]Yuan.C. Composite Chaotic Pseudo-Random Sequence Encryption Algorithm for Compressed Video[J].Tsinghua Science and Technology, 2014, 02(6):234-241.

 
王艳,王慧
《黑龙江工业学院学报(综合版)》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号