更全的杂志信息网

海量通信数据管理平台的设计与实现∗

更新时间:2009-03-28

1 引言

随着智能电网技术的快速发展,电力智能终端采集到海量的数据,这些数据需要通过通信网络聚集到相应的数据集中存储中心以得到有效存储和管理,从目前技术发展的现状来看,云计算技术是可以有效提高这些海量通信数据存储和管理的技术手段[1]。基于云计算技术的海量通信数据管理平台是今后电力企业通信数据管理信息化的基本环境,也是电力数据中心的子系统,为电力数据中心提供源数据。海量通信数据平台将依托云计算技术整合电力企业分散的通信数据计算和存储能力,为海量通信数据的存储、挖掘和分析提供高效、稳定的IT基础支撑。

在海量数据管理平台中,电力输配电网中大量电力数据采集、调度自动化、电力应急通信等生产系统实时通信产生的规模庞大的数据流,以及各类半结构化及非结构化的视频、音频和文本等文件,使得电力企业现有数据管理构架在面对如此海量数据存储及管理上显得效率低下[2]。因此,本文针对海量通信数据平台中数据的来源及特点,采用基于非关系型数据库集群技术,设计和实现了一种海量通信数据平台,并通过实验验证了该平台在海量数据压力下具有优异的数据存储和处理性能。

2 海量通信数据的来源和特点

2.1 海量通信数据的来源

电力企业海量通信数据结构各异、耦合松散,主要可以分为电网运行和设备监测通信数据、管理服务通信数据、现场通信数据和其他通信数据四类[3]。这四类数据通过不同的通信链路传输到数据中心,具有各自的存储格式和不同的处理流程。

1)电网运行和设备监测通信数据源主要是数据采集与监控系统、调度管理系统以及生产管理系统等各种类型电力生产信息系统和数据采集系统[10]。其数据内容包含运营电网线路状态、设备在线监测等数据。这些数据通过光纤、无线通信等多种通信网络汇聚到管理平台,通过数据挖掘和分析实现对电网运行状态和设备状态综合评价。

自2012年开始,聊城市政府围绕徒骇河建设“世界运河(建筑)博览园”,计划将世界各地优秀的运河建筑景观搬到河流两岸。可以此为契机,适时推出特色水上游览项目,让游客乘坐葫芦状游船,在欣赏两岸世界运河文化风情的同时,体验古人泛舟浮于江湖的逍遥境界。另外,可在姜堤乐园内或其北面的徒骇河水域,开辟水上乐园,开发葫芦“腰舟”娱乐项目和竞技项目。

2)管理服务通信数据主要来自营销业务系统、用电信息采集系统、计量运营管理平台、ERP、以及95598服务平台等[12]。这些数据通常通过电力企业内部网络存储到数据中心用于负荷预测、用电量预测、负荷特性分析及经济形势分析,以提升电网公司管理水平,降低运营成本。

Hadoop能够高效实现对MongoDB存储的海量数据的进行并行分析和处理[14]。基于Hadoop的数据处理工作流程如图5所示。Hadoop首先检查MongoDB集合,并将待处理数据进行分块。随后划分后的数据块被分配到Hadoop中的各个计算节点,Hadoop处理节点从MongoDB集合中读取数据块进行计算。最后计算完的数据经过分析、合并成结果,写回到MongoDB数据库中,并最终返给应用程序[15]

4)其他通信数据包括气象数据、雷电监测数据、GIS数据等相关数据。这些数据与电网运行安全和设备运维效率息息相关。

2.2 海量通信数据的特点

随着电子技术和信息技术的快速发展,电力企业智能设备和电力通信网络逐步普及,各种生产管理系统和数据采集系统的规模得到广泛使用而且规模不断扩大,通信数据的数据量和质量都有大幅提升。这些海量的通信数据具有以下几个特点[12]

Q反应了该分片数据集群在较近的时间段内的负载,Q越大表示数据负载越大,超过阈值的分片数据集群则需要进行数据移出操作以实现数据动态均衡。以Q作为参照值来进行数据均衡的算法如图4所示。

1)数据量大、类型多样。电力企业的通信数据涉及运营电网的实时生产数据,有现场终端采集的设备监测数据,还会有现场人员采集的视频、图片等等。这些数据有结构化的连续采集的时间序列数据流,也有如图片、视频等无结构的数据块。这些数据不但类型多样,而且随着时间延长而不断增加,数据量极大。

海量数据管理平台的架构由数据层、通信层、存储层和应用层组成。

3)随着信息技术的进步,电力企业的数据附加价值得到极大提升,这些海量数据已经成为电力企业的一种基础资源。因此提升混合结构化和非结构化海量通信数据的存储和处理效率成为亟待解决的课题。

3 海量通信数据管理的相关技术

在面对海量非结构化、异构通信数据时,传统的关系数据库已经难以完成存储、检索等相关数据处理工作,于是基于NoSQL的数据库应运而生。基于NoSQL的数据库是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统,能够存储键值、文档、图等多种数据类型[4]。NoSQL数据库有MongoDB、Hdase、Redis等,其中MongoDB由于具有数据模型丰富、存取性能优异、支持丰富查询表达式、数据维护工作量小等诸多优势,因此十分适宜运用在海量通信数据平台中。

3.1 基于MongoDB的数据存储

MongoDB的数据逻辑结构具有一定的层次性,由文档、集合和数据库组成,其结构如图1所示[5]

21世纪需要心理、生理和人格都健全的人才,通过社会实践活动,为学生个性的充分发展创造空间,帮助学生体验生活、感受生活,增进学生对自我、社会和自然之间内在联系的整体认识与体验,谋求自我、社会与自然的和谐发展,促进学生健康发展,塑造学生健康心灵。

  

图1 MongoDB的逻辑结构

Mongo DB每个数据库由一个.ns文件和多个数据文件组成,.ns文件是名字空间文件,数据文件以.0、.1、.2结尾。MongoDB内部使用预分配的方式来分配数据文件的存储空间。数据文件大小由0开始随着数据的增加而增长。MongoDB会根据数据的增长量适时分配新的数据文件,新分配的数据文件是上个数据文件大小的2倍。这种机制存储空间的利用率[6]。Mongo DB数据库中以BSON对象存储数据。这种格式一般比JSON存储的文件小,而且解释比较快,有利于提高数据的交换效率。MongoDB可以将数据文件映射到内存中,这样对文件的读写可以直接通过操作内存来完成,使得MongoDB数据查询效率会得到有效提升。

3.2 存储集群的故障转移

为防止出现单点故障,基于MongoDB的存储集群以节点复制的方式实现故障转移。基于MongoDB的存储集群在任何时间点上只有一个主数据节点,其它节点都是备份数据节点。基于MongoDB的存储集群除主数据节点外还有以下三类数据节点:标准数据节点、备份数据节点和选举数据节点[7]。标准数据节点,存储一份完整的数据副本,在主数据节点故障时是主数据节点的候选节点,同时参加主数据节点的选举投票。备份数据节点,存储了完整的数据副本,在主数据节点故障时只参与投票,不能成为主数据节点。选举数据节点在主数据节点故障时只参与投票,并执行候选主数据节点的仲裁操作[8]

测试环境是6台PC机组成的MogoDB集群,PC机配置为内存 8G、CPU 是 Inte(R)Core(TM)i5 CPU 2.27GHZ,操作系统版本是Ubuntu14.04 LTS,MongoDB的安装版本是version 2.4.9,MySQL的安装版本是MySQL 5.6.21。

  

图2 存储集群的故障转移

3.3 数据存储集群的负载均衡

基于MongoDB的存储集群通过分片机制增删数据存储服务器实现数据库容量的动态扩展,以应对不断增长的数据存储需求。基于分片机制存储集群的结构如图3所示[11]

  

图3 基于分片机制的存储集群结构

分片存储集群是一个子存储集群,具有主数据节点和备份数据节点结构,具有完整的故障转移功

本篇论文通过问卷调查和访谈的形式针对泰国汉语学习者进行关于拒绝言语行为使用的调查,依据社会地位和社会距离的不同来进行研究分析。结果表明,社会地位与社会距离对泰国汉语学习者选取拒绝言语行为的策略都有一定影响。泰国汉语学习者与汉语母语者所采取的拒绝策略相类似,而泰国汉语学习者可能由于汉语水平的问题采取直接拒绝的行为比汉语母语者要更为频繁。总之,语言受文化的影响,想要真正掌握一门语言,需要理解其背后的文化内涵,只有这样最终才能恰当地运用汉语进行得体的交际。

 
 

其中插入操作要与数据库进行连接,这会导致各分片集群中数据数量的不均衡,因此插入操作比较其他三种操作会占据较大部分的负载。因此需要给插入操作赋予一个大于1的权重系数λ,式(1)修改为下式。能,提供数据的实际存储能力,同时具有数据故障恢复能力。配置服务器存储所有分片存储集群的配置信息。存储路由器负责将客户端的数据保存、查询、更新等请求分配给分片存储集群,并将请求结构返回给客户端。存储路由器同时依据各个分片数据集群的带权值数据操作次数对各个分片存储集群中的数据进行动态均衡[13]

数据的主要操作是增、删、改、查,用 Ix、Dx、Ux、Fx分别代表每个数据单元这四种操作的次数。用T_Ix、T_Dx、T_Ux、T_Fx分别代表四种数据操作的时间间隔,用时间间隔的倒数作为该数据操作的权值,操作的时间越早则这次操作的权值越小。用Qn表示第n块数据块带权值的数据操作次数,则Qn的计算公式如下。

有时间、有机会大家都应该去看看这个展览。激励人心,鼓舞士气,指明未来。当然,展览上累积的满满正能量,对我们眼前的日常工作,开拓创新,做大做强,有着积极的现实意义。

假设在某个分片集群中有m个数据单元,则该分片集群的带权值数据操作次数Q的计算如下式。

我抬起头,将目光投向了与李家庄毗邻的范家庄,那里塔吊林立,正在重复李家庄一年前的经历。自从我的鱼塘被填平后,夜里,我总是反复做同一个梦:我梦见城市变成了一个巨大的河蚌,正在把周边的乡村包裹起来,变成美丽的珍珠。

 
  

图4 负载均衡算法

三个月后,高志明被任命为照相馆副经理。淘汰国产911彩扩机,用上进口的诺日士自动冲印机,换了背景和道具服装,春风照相馆也辟出了艺术摄影业务。

3.4 大数据处理流程

3)现场通信数据。现场通信数据主要包括运维人员在常规运维检修以及应急抢险过程中,上传现场的数据,这些数据提升现场应急处置水平具有较高的价值。

  

图5 大数据处理流程

4 海量通信数据管理平台的实现

海量通信数据管理平台存储了大量夹杂结构化和非结构化的数据。针对结构化的数据,由较强事务一致性处理优势的关系型数据库来完成,而大量非结构化数据的存储、统计、分析、计算及查询等则由基于MongoDB的云存储平台来完成。海量通信数据管理平台的架构如图6所示。

图5(a)、(b)分别是A组器件和B组器件在10 mA/cm2电流密度下的归一化电致发光光谱.从图中可知,A、B两组器件都有一个在474 nm的主峰,以及一个波长在496 nm的偏振峰,为Firpic的特征光谱,此外,没有观察到任何传输层材料和母体材料发光,说明激子复合区域主要位于发光区中且母体和客体材料之间实现了充分的能量转移.随着电子传输层厚度的增加,偏振峰的强度逐渐增强,以mCP为母体,B3PyPPM的厚度为55 nm的器件中,偏振峰的强度超过主峰,这是由于光学微腔效应引起的.具有发光层的发光薄膜结构可以用类似于Smith提出的用于描述法布里- 珀罗结构的透射率的方法来表达

2)各个系统的通信数据耦合性低。电力企业由于其各个信息系统的专业性和局限性都较强,其数据通信接口和数据格式相差较大,数据之间关联性很弱。

数据层是通过数据集中器将智能终端、视频监控、采集系统、现场采集终端等设备中数据集中起来,发送给平台的数据中心。

通信层是由光纤网络、无线网络、微波链路、卫星通信链路等通信链路组成,是数据通信的物理通道,把数据层的数据集中器和存储层的数据路由器连接起来。

降低阴极锌含Cu,首先应该降低新液含Cu2+,提高新液的净化深度,从根本上减少Cu2+的内部来源,在此基础上,电积操作过程中要高度注意,通过加强以上改进措施可以防止导电头和导电片上因发生化学反应而形成的Cu2+进入电解槽内,减少Cu的外部来源,使生产的阴极锌含Cu满足要求。

存储层由存储集群和数据路由器组成,为海量通信数据提供可靠、高效的存储能力和计算能力。数据路由器机在接收到原始数据后进行存储路由,同时运行负载均衡算法,为存储集群提供动态扩展能力。存储层对应用层提供数据访问接口,响应应用服务发送的数据访问请求。

  

图6 海量通信数据管理平台

应用层配置Web服务器和应用服务器,为外部客户端提供通信数据的检索、查询、处理服务,同时协同相关应用系统实现对通信数据的历史分析和数据挖掘等操作。

各级党委政府、各个部门始终把确保人民群众生命安全放在防汛抗洪工作的首位,有序地组织转移受洪水威胁的群众,全力救助受洪水围困的群众;国家防总、淮河防总和省防指在决定启用行蓄洪区、分洪河道过程中,反复会商,慎重决策。以怀洪新河分洪为例,当时蚌埠以下堤防岌岌可危,抢险官兵又疲惫不堪,还有11万多转移的群众无家可归。在这种情况下,淮河防总审时度势,合理运用了怀洪新河。提前2~4天让转移的群众重返家园,恢复了正常的生活秩序。

5 性能测试

基于MongoDB的存储集群中的数据节点通过心跳机制来实现故障判定。数据节点会每两秒发送一次ping包,其他节点收到心跳后会更新自己的节点状态表并回复,如果在规定时间间隔内没有收到回复则在节点状态表把该节点状态设置为故障。集群中的主数据节点在维护节点状态表的同时还检测自己和集群中的多数数据节点的通信是否正常,如果不正常就把自己降级为只读节点。一旦主数据节点发生故障,集群就会通过选举机制选举出一个新的主数据节点,实现故障自动转移。存储集群的故障转移机制如图2所示[9]

CPU和GPU架构差异很大,CPU功能模块很多,能适应复杂运算环境;GPU构成则相对简单,目前流处理器和显存控制器占据了绝大部分晶体管。CPU中大部分晶体管主要用于构建控制电路(比如分支预测等)和Cache,只有少部分的晶体管用于完成实际的运算工作。

测试分为MongoDB集群基于分片机制的负载均衡测试,Mongo DB与My SQL的插入和查询性能对比以及Mongo DB的并发读写测试。

5.1 基于分片机制的负载均衡测试

通过在Mongo集群中增加和删除分片,来测试数据是否能够均衡分布。首先在MongoDB数据库中插入85545条数据,然后部署3个分片,调用db.powerConsuCall.status()命令查看各个分片中数据分布情况。随后在集群中删除一个分片,再来查看数据的分布情况。最后在集群中增加两个分片,再来观察数据迁移和均衡情况。测试结果如表1所示。

 

表1 基于分片机制的负载均衡测试结果

  

分片4数据量----21446分片数3 2 4数据总数85545 85545 85545分片1数据量28435 42596 21317分片2数据量28734 42945 21408分片3数据量28376--21374

从测试结果可以看出,MongoDB存储集群在添加或删除新的分片后,数据总数不会发生变化,MongoDB存储集群会自动依据存储架构的变化把数据均衡的迁移到正常运行的分片中,这使得根据业务的需要方便地添加或删除服务器成为可能,体现了MongoDB非常好的扩展性和负载均衡性能。

5.2 Mongo DB与My SQL的性能测试

分别向MongoDB和MySQL中插入5万、15万、30万、50万、150万和300万条记录,利用Mongo DB与My SQL的监测工具mongostat和explain来获取插入操作的用时。实验结果如图7所示。

  

图7 MongoDB和MySQL插入性能测试结果

由图7可以看出,在存储较大规模数据时,Mongo DB数据库的性能优于传统的关系型数据库。

分别在MongoDB和MySQL中的5万、15万、30万、50万、150万和300万条记录中查询800条记录,记录查询操作用时。实验结果如图8所示所示。

因此,败血型大肠杆菌病的出现,主要是对羊的血液与组织系统造成破坏,要抓紧时间进行治疗,并通过注射药物提高药物的扩散速度,如此治疗该病的见效速度才能加快。保障羔羊的健康成长。

  

图8 MongoDB和MySQL查询性能测试结果

由图8可以看出,由于MongoDB是通过内存来完成数据的检索,因此在查询性能上也是明显优于MySQL。

5.3 Mongo DB并发数据读写性能测试

使用YCSB工具测试Mongo DB在并发读写情况下的数据吞吐量。首先分别在并发数为5、15、25和35的情形下,通过设置不同的操作场景,完成数据总量为100万条记录的读写,对测试过程中MongoDB数据数据吞吐量进行记录。测试结果如表2所示。

 

表2 不同并发数下的数据吞吐量

  

50%写50%读的数据吞吐量(ops/s)3267 3579 3812 3798并发线程数量5 15 25 35 100%写的数据吞吐量(ops/s)2316 2634 2765 2751 100%读的数据吞吐量(ops/s)4256 4653 4769 4756

由表2可知,MongDB在读写操作上能保持较高水平的数据吞吐量。随着线程的增加,MongDB读写操作的吞吐量也随着上升,这是由于MongDB支持单一数据连接下的多线程并发操作。实验中当线程扩展到35时,吞吐量就会停止增加。

随后测试在单线程、不同分片数目场景下MongoDB的数据读写操作地吞吐量。测试结果如表3所示。

 

表3 不同分片数下的数据吞吐量

  

100%读的数据吞吐量(ops/s)4123 4138 4129 4142分片数量1 3 5 7 100%写的数据吞吐量(ops/s)2218 2737 2909 3217 50%写50%读的数据吞吐量(ops/s)3107 3898 4326 4794

由表3可知,随着分片数的增加MongoDB的数据写入和混合读写的数据吞吐量有较为明显的提升,但是对单一的数据读取操作的吞吐量提升效果不明显。

6 结语

为了有效存储包含规模巨大的非结构化的通信数据,提高海量通信数据的管理效率,本文基于MongoDB集群存储技术设计和实现了海量通信数据管理平台。测试结果表明该平台能够实现负载动态均衡,具有比传统关系数据库更加优异的数据存储性能,能够稳定提高水平的数据读写的吞吐量,在多种场景下都有优异的海量通信数据存储和处理的性能表现。

参考文献

[1]张栗粽,崔园,罗光春,等.面向大数据分布式存储的动态负载均衡算法[J].计算机科学,2017,44(5):178-183.ZHANG Zhang,CUI yuan,LUO Guangchun,et al.Dynamic load balancing algorithms for large data distributed storage[J].computer science,2017,44(5):178-183.

[2]肖子达,朱立谷,冯东煜,等.分布式数据库聚合计算性能优化[J].计算机应用,2017,37(5):1251-1256.XIAO Zida,ZHU Ligu,FENG Dongyu,et al.Distributed database aggregation,computing performance optimization[J].computer applications,2017,37(5):1251-1256.

[3]赵越,李培,王震,等.电网图形数据管理MongoDB数据库的应用[J].计算机系统应用,2017,26(3):239-243.ZHAO Yue,LI Pei,WANG Zhen,et al.Application of[J].computer system of power grid graphics data management of MongoDB database,2017,26(3):239-243.

[4]杨冬菊,李青,邓崇彬.HDFS异构集群中的分级存储调度机制[J].小型微型计算机系统,2017,38(1):29-34.YANG Dongju,LI Qing,DENG Chongbin,.HDFS,hierarchical storage scheduling mechanism in heterogeneous cluster[J].small minicomputer system,2017,38(1):29-34.

[5]付晨,钟诚,叶波.MapReduce并行加速数据流多模式相似性搜索[J].计算机应用,2017,37(1):37-41,53.FU Chen,ZHONG Cheng,YE Bo.MapReduce parallel acceleration,data flow,multimodal similarity search[J].Computer applications,2017,37(1):37-41,53.

[6]王晓龙,蒋朝惠.云环境中基于LVS集群的负载均衡算法[J].计算机工程与科学,2016,38(11):2172-2176.WANG Xiaolong,JIANG Zhaohui.Load balancing algorithm based on LVS cluster in cloud environment[J].computer engineering and science,2016,38(11):2172-2176.

[7]史玉良,王相伟,梁波,等.基于MongoDB的前置通信平台大数据存储机制[J].电网技术,2015,39(11):3176-3181.SHI Yuliang,WANG Xiangwei,LIANG Bo,et al.MongoDB based pre communication platform,large data storage mechanism[J].power grid technology,2015,39(11):3176-3181.

[8]肖中正,陈宁江,魏峻,等.一种面向海量存储系统的高效元数据集群管理方案[J].计算机研究与发展,2015,52(4):929-942.XIAO Zhongzheng,CHEN Ningjiang,WEI Jun,et al.A mass storage system for efficient metadata management scheme for cluster[J].Computer research and development,2015,52(4):929-942.

[9]严英杰,盛戈皞,陈玉峰,等.基于时间序列分析的输变电设备状态大数据清洗方法[J].电力系统自动化,2015,39(7):138-144.YAN Yingjie,SHENG Gehao,CHEN Yufeng,et al.Time series analysis of the power transmission equipment of large data cleaning method based on[J].automation of electric power systems,2015,39(7):138-144.

[10]吴凯峰,刘万涛,李彦虎,等.基于云计算的电力大数据分析技术与应用[J].中国电力,2015,48(2):111-116,127.WU Kaifeng,LIU Wantao,LI Yanhu,et al.Technology and application of power large data analysis based on cloud computing[J].China electric power,2015,48(2):111-116,127.

[11]彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J/OL].中国电机工程学报,2015,35(3):503-511.PENG Xiaosheng,DENG Diyuan,CHENG Shijie,et al[J/OL].The key technology of power big data oriented smart grid applications Chinese CSEE,2015,35(3):503-511.

[12]赵腾,张焰,张东霞.智能配电网大数据应用技术与前景分析[J].电网技术,2014,38(12):3305-3312.ZHAO Teng,ZHANG Yan,ZHANG Dongxia.Intelligent distribution network data application technology and Prospect Analysis of[J].power system technology,2014,38(12):3305-3312.

[13]孔超,钱卫宁,周傲英.NoSQL系统的容错机制:原理与系统示例[J].华东师范大学学报(自然科学版),2014,(05):1-16.KONG Chao,QIAN Weining,ZHOU Aoying.NoSQL system,fault tolerance mechanism of the principle and system of sample[J].East China Normal University(Natural Science Edition),2014,(05):1-16.

[14]朱建生,汪健雄,张军锋.基于NoSQL数据库的大数据查询技术的研究与应用[J].中国铁道科学,2014,35(1):135-141.ZHU Jiansheng,WANG Jianxiong,ZHANG Junfeng.Research and application of large data query technology based on NoSQL database[J].Journal of China Railway Science,2014,35(1):135-141.

[15]陈波,张曦煌.基于分层与容错机制的云计算负载均衡策略[J].计算机应用,2013,33(11):3155-3159.CHEN Bo,ZHANG Xihuang.Load balancing strategy[J].application of computer calculation and fault tolerant mechanism based on layered cloud,2013,33(11):3155-3159.

 
曾伟忠
《计算机与数字工程》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号