更全的杂志信息网

大数据用户偏好信息全局降维算法研究

更新时间:2009-03-28

0 引言

在医疗、生物学、物联网、社交媒体等领域,数据量已经达到TB级甚至PB级.大数据有助于增进对现实世界的理解,并可通过有效的分析应用为用户提供更优质的服务.但是,指数增长的数据量太大且过于复杂,超出了当前计算架构的处理能力,因此需要深入研究以应对大数据产生的数据分析和处理的难题[1-7].

你的空间我无权干涉,但是你总要把握一个度吧。王树林把这句话再次卡在嗓子眼里。春天了,春天不说冬天的话。况且,老话说得好,己所不欲,勿施于人。

因为原始数据所包含的信息维度过多,其中冗余信息、非连续信息和歧义信息给数据的后续处理带来更多的难度.因此,如何有效地从原始数据中抽取出合理、有意义的数据,再进一步进行批量的数据分析,成为大数据处理的关键问题之一.数据的降维由此而生,这一概念主要是对大规模数据的变量数量进行所见,进而提高对全维度数据处理的效率[8-10].

但是,已有的降维方面的研究主要局限于维度值的降低,所依赖的算法运行的前提限制非常多.比如,必须是统一格式的数据源、不能应用于大规模数据否则运算耗时会指数攀升、无法基于并行处理等[11-16].这些限制严重制约了大数据时代下的数据处理发展.笔者提出一种大数据用户偏好信息全局降维算法(Global Di mension Reduction towards big data users'Pref erence,GDRP),用于分布式全局大数据降维处理,详细介绍了GDRP算法及实现并进行算法性能分析和改进.

在动态MCS场景下,将AdaCode与RainbowRate[3]进行了比较.RainbowRate是针对长距离无线链路设计的速率选择算法,优于其它适用于短距离链路的速率选择算法.

1 大数据用户偏好信息全局降维算法

首先对本文分析的问题建立数学模型以便于算法阐述.针对引言中所述的大数据降维所面临的问题,下面将逐一分析并建立一个综合的数学模型来寻求解决方案.

问题1:大数据融合.从不同数据源产生的异构数据需要通过一个通用的模型先进行融合再进行后续的数据降维操作.

问题2:降维算法.大数据规模的原始数据即使已经转化为统一的模型,其数据内部存在的不确定性、不连续性和冗余性仍然存在,需要在降维过程中一一剔除,得到数据规模相对较小的核心数据,以供进一步数据分析使用.

问题3:平台架构及数据分布式设计.建立分布式计算系统所需的软件硬件设施和配置是实现算法的必要承载,只有解决了应用实现的问题才真正解决了一个现实问题.

其中,阶I k、I w、I cs分别代表图形的高度、宽度和色阶.阶I ia和I ib分别代表XML独立元素和元素间关系.定位信息则通过阶I r表示.

如图3所示,与细胞对照组相比,ACR组NSC中PKA蛋白表达下降41.6%(P<0.05),PKC蛋白表达下降29.4%(P<0.05),而p-NF-H蛋白表达升高66.4%(P<0.05);CP组三者均无明显变化。与ACR组相比,ACR+CP组的PKA蛋白表达升高68.9%(P<0.05),PKC蛋白表达升高34.4%(P<0.05),而p-NF-H蛋白表达下降18.6%(P<0.05)。与CP组相比,ACR+CP组PKA,PKC和p-NF-H蛋白表达无明显变化。

1.1 大数据融合

图1给出了对原始数据进行数据融合的示意图.

  

图1 原始数据数据融合Fig.1 Raw data fusion

原始数据融合中,原始数据在客户端进行预处理,核心数据在服务器端进行抽取.这样设计更易于部署,且可以实现如下特征:

在图2示例中,分组张量C 1和C 2源自于原始张量T.C 1的阶数等于张量T的阶数,而C 2的阶数小于张量T的阶数.这个示例中,C 2是4×3的矩阵.

何良诸瞪一眼女播音员,带上门,向前面走去。经过一节节车厢,窗户前全是脊背和屁股,旅客们把身子钻到窗外,朝前方张望。乘务员忙乱着,劝乘客们坐回去,噼噼啪啪关窗户。顾此失彼,寡不敌众,窗户们又被提起来。

在托雷莫利诺斯的海滩上,我结识了一个名叫米尔·马克西莫夫的法国女人,棕发女郎,非常漂亮。她和丈夫在许多年前就定居在那儿了。我在他们经营的一家小旅店里租了一个房间。她告诉我明年秋天她将去巴黎的朋友家里呆很长的一段时间,还把她朋友的地址给了我。我也答应她,如果有机会就去巴黎看她。

3)节省存储空间.每当处理得到核心分组张量数据后,原始的数据信息可以清除掉,及时释放有限的存储空间.

根据上述设计,下面详细介绍数据融合算法部分.首先给出张量的定义如下.

图4 总括了大数据融合的物理意义.该图中对应3个生成的分组张量,展开表达则可通过下式表示:

 

式(1)中分组张量C的每一个阶的维度不能大于原始张量T中对应的维度.图2给出了一个原始张量到两个分组张量的映射示意图以便于理解.

  

图2 一个原始张量到两个分组张量的映射Fig.2 Mapping from one raw tensor to t wo chunk tensors

1)原始数据可实现分布式处理.如上图的结构,从不同数据源获得的异构数据首先转发至最近的通明客户端进行预处理.数据噪声、内部矛盾数据、冗余数据在预处理中可以进行清除.经过这个步骤得到的数据在GDRP中称为核心分组张量数据.

令C 1 ∈RΓ1×Γ2×…×ΓM 和C 2∈RΓ1×Γ2×…×ΓN 是两个分组张量,则扩展操作可以表示如下:

六、药物防治:1.四月初打一遍清园药,要打的全,药量要大,目的是要杀死越冬的害虫,以及病原菌等,打药时不仅要树上树下一起打,地面杂草也要打到。2.花芽露红时,在四月中旬,进行打药,防治蚜虫.小卷叶蛾等。3.套袋前也打好药,这时要注意药的浓度,以免烧伤花,4.套袋后也要打药,套袋后打一遍,要打的浓,以后每隔20天打一次,再打三次。5.光杆药,入冬后再打一遍药,俗称光杆药,打好光杆药是全年病虫害防治的措施之一,在苹果树上越冬的害虫有红蜘蛛.小卷叶蛾等,因此,这时候打药非常必要。

 

其中,

C 3∈RΓ1×Γ2×…×ΓK,K≥M+N为k阶分组张量.

令 Set 1={I 1,I 2,…,I M}、Set 2={I 1,I 2,…,I N}、Set 3={I 1,I 2,…,I K},则集合Set 3的阶是集合Set 1和集合Set 2的并集,即Set 3=Set 1∪Set 2.

2)降低信息交互流量的负荷.因为只有核心分组张量数据进行汇聚传输至通明服务器处理,因此在网络侧所需的带宽可以明显降低.而且如果有必要进一步减小传输数据量,分组张量数据可根据预设的压缩格式进一步减小占用的存储空间.

苏教版第六册《荷花》的第二小节,描绘了荷花的色彩美、姿态美,教学时可以先引导学生观察图画,问:在图中你看到了些什么?学生说看到了“荷花”“荷叶”“荷花苞”“小莲蓬”等,其中“荷花苞”又称为“花骨朵”,让学生掌握“荷花”“荷叶”“花骨朵”“小莲蓬”等词语,继而启发学生从不同角度描绘荷花的美。

图3给出了基于两个阶数不同的分组张量生成一个三阶分组张量的示例.

分组张量C 1 ∈RΓ1×Γ2×Γ3=R 4×4×2 和C 2∈RΓ1×Γ2=R 4×3 被分组张量C 3 ∈R 4×5×3 所统一化.

图3中的0元素是填充位,用于填充两个分组张量阶数之间的差异.为便于理解,下面给出分组张量C 3的每维度索引向量.

 

其中,R上的三个阶分别代表时域、空域和设备属性.式(4)是一个基于统一表达化的融合表达式,其阶数的物理意义如图4所示.

式(3)含有C 3的6个部分的维度,对应于C(i,j,k),i∈{1},j∈{1,2,3},k∈{1,2}.图3中分组张量C(1,3,1)和C(1,1,2)的元素是0.

进一步,令T为原始张量,而C 1,C 2,…,C N是基于T生成的分组张量,Ĉ12,…,ĈN是对应的近似分组张量.令ˇT表示所有近似分组张量的乘积,即

  

图3 两个分组张量被一个分组张量统一Fig.3 Two chunk tensors unified by one chunk tensor

考虑数据类型的多样性,首先将不同维度的数据统一到较低维度的分组张量形式,并计算对应的近似分组张量.然后,通过下式进行大数据融合运算.

这颗卫星由3D打印机打印制作,仅64克,只比一个网球重一点,比一个核桃大一点。它被安装了8个传感器,用来收集及发送地球电离层数据。这颗卫星在美国航空航天局和教育机构IDoodle Learning组织的“Cubes in Space”比赛中,从来自57个国家的86000个参赛设计里脱颖而出,一举夺冠,于2017年6月22日,在瓦勒普斯岛发射升空。

 

1∶3=[1∶2|3∶3].

  

图4 大数据融合表达式物理含义Fig.4 Practical meaning for big data fusion expression

令T∈RΓ1×Γ2×…×Γp 表示一个p阶原始张量,那么分组张量C可以表示为:

先对种子进行预处理再播种能有效提高种子的发芽率。对于农民自繁自留的种子,形状上大多都层次不齐,有的还掺混着少量的杂种,甚至还有带病虫的籽粒。因此,播种前筛选一遍,可以保证种子质量,为小麦发苗奠定基础。

 

本文解决上述三方面问题.针对问题1,GDRP设计了一个分组张量模型用来融合非结构化、半结构化及结构化数据,输出成为统一的张量输出.在数据融合阶段,本地数据在透明客户端中进行分布式处理,并将次核心的数据提交到透明服务器进行整合.其次,为处理统一格式的降维数据,GDRP进行高阶单值降维处理,实现对统一格式数据的降维运算.最后,通明计算范例作为GDRP实际部署实施的平台,最终实现了GDRP由建模、设计到实现的全部环节.

当Y>Y*时,dx1/dt>0,dx2/dt<0,x1=0,x2=1为两个稳定状态,则x2=1是演化稳定策略,开发商建设普通建筑的概率为1,也就是说,政府激励对策成效不佳,开发商不愿意投资建设被动房,并且原先开发建设被动房的开发商转变为开发建设普通建筑。

1.2 大数据降维

在大数据融合基础上,降维操作相对易于表达,如下式:

 

其中,S是核心张量,U代表截短正交基.基是在矩阵向向量转换运算过程中的中间结果.

为了讨论方便,我们定义相对磁感应强度Br(x,y,z)=B(x,y,z)/B(x=0,y=0,z=0),即相对于原点的磁场强度。我们将相对磁感应强度满足1.01>Br>0.99 条件的区域称为均匀磁场区域,在图(3)中,我们计算了不同a,b的情况下,xz和yz平面内相对磁感应强度的分布特点:

图5给出了一个降维的数据示例.通过式(6)进行降维运算后的结果矩阵,将8行8列的矩阵分别降维为3行5列和5行3列的矩阵.

图6给出了进行数据融合和降维中的部分核心迭代的代码实现.

  

图5 大数据降维示例Fig.5 Example for big data di mension

  

图6 大数据融合及降维核心迭代(部分代码)Fig.6 Partial code for big data fusion and di mension

2 算法性能分析

本节给出GDRP算法性能仿真结果及分析.验证采用的数据源来自某社交网络网站运维与呈现数据.

从图7可以看到,应用GDRP进行数据融合和降维过程的近似运算,并没有明显损失原始数据本身的维度信息.

图8给出了经过不同次数的数据训练时GDRP在降维比例和近似比例上的变化.可以发现,随着数据训练次数的增加,GDRP对数据压缩的性能逐渐提升,而同时原始数据中部分冗余细节被替换的量也逐渐增多.

  

图7 大数据融合及降维的近似损失Fig.7 Lost of fusion and di mension processes

  

图8 大数据融合及降维的近似损失Fig.8 Lost of fusion and di mension processes

图9 给出了使用GDRP和未采用降维的数据融合算法在处理不同规模数据时的执行时间对比.从图中可见,随着数据规模的增大,无论是否采用GDRP,处理的时间都有所提升.但是不同的是,未采用GDRP时处理时间呈现类指数增长趋势,而应用GDRP时,处理时间的增长相对变化幅度非常小.因此,GDRP在获得了较好的数据处理性能的同时,大幅提升了数据处理的效率.

  

图9 GDRP运行性能统计Fig.9 Performance statics of GDRP

3 结语

面对数据量快速增长的挑战,本文提出了一种大数据用户偏好信息全局降维算法(GDRP),通过对原始的各种格式的数据进行融合,并基于融合生成的中间张量数据进一步进行降维运算,从而实现对大数据原始数据中核心数据的提取.GDRP有效降低了后续大数据分析所面对的数据量,同时统一了数据分析所面对的数据格式,有利于数据挖掘整体性能的提升.仿真表明,GDRP的处理过程中基本保持了原始数据的特征,同时可以有效降低供后续数据分析的数据规模,并且在处理大规模数据时,GDRP能够维持较高的运行效率.

[参 考 文 献]

[1]G Bello-Orgaz,JJJung,D Camacho.Social big data[J].Information Fusion,2016,28(C):45-59.

[2]WSong,Z Deng,L Wang,B Du,P Liu.G-IK-SVD:parallel IK-SVD on GPUs for sparse representation of spatial big data[J].Journal of Supercomputing,2016:1-18.

[3]谷润平,黄磊,赵向领.QAR数据的数据融合算法[J].计算机系统应用,2016(1):18-23.

[4]WS Hwang,HJ Lee,SW Ki m,Y Won,MS Lee.Efficient recommendation methods using category experts for a large dataset[J].Information Fusion,2016,28(C):75-82.

[5]Y Wang,X Lin,L Wu,Q Zhang,W Zhang.Shifting multi-hypergraphs via collaborative probabilistic voting[J].Knowledge&Information Systems,2016,46(3):515-536.

[6]张浩,刘海明,吴春国,等.基于多特征融合的绿色通道车辆检测判定 [J].吉林大学学报(工学版),2016(1):271-276.

[7]R Zheng,T Li,M Zhang,Q Wu,Z Ma.iSPmA:A Novel IOT Security Event Perception Model based on Autonomic Computing[J].Internet of Things Journal IEEE,2014,11(7):8-21.

[8]P Richtárik,M Taká?.Parallel Coor dinate Descent Methods for Big Data Opti mization[J].Mathematical Programming,2012:1-52.

[9]宁德军,封松林,萧海东,姜淑峰.下一代智能应用开发模式研究[J].网络新媒体技术,2016(1):1-10.

[10]RPD Santos.Big Data:Philosophy,Emergence,Crowdledge,and Science Education[J].Social Science Electronic Publishing,2015,11(7):1-18.

[11]C Li,P Zhou,Y Zhou,K Bian,T Jiang.Distributed Private Online Learning for Social Big Data Computing over Data Center Networks[J].Mobile Net works&Applications,2014,3(8):333-343.

[12]牛连强,赵子天,张胜男.基于Gabor特征融合与LBP直方图的人脸表情特征提取方法 [J].沈阳工业大学学报,2016(1):63-68.

[13]Y.Chen,D.Han.Big data and hydroinformatics[J].Journal of Hydroinformatics,2016,2(1):48-52.

[14]A Cecaj,M Mamei.Data fusion for city life event detection[J].Journal of Ambient Intelligence&Hu manized 2016:1-15.

[15]RR Reddy,Y Ramadevi,KVN Sunitha.Data Fusion Approach for Enhanced Anomaly Detection[J].Future Generation Computer Systems,2014,7(11):77-89.

[16]杜淑颖.基于大型数据集的聚类算法研究 [J].软件,2016(1):132-138.

 
郑羽洁
《广西民族大学学报(自然科学版)》2018年第04期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号