更全的杂志信息网

MapReduce在气象数据传输时效统计中的应用

更新时间:2009-03-28

0 引言

气象数据是气象预报和气象科学研究的基础.近年来,随着气象业务进一步现代化,气象数据呈几何倍数增长.气象预报业务对观测资料的依赖越来越高,中国气象局在“十三五”规划中明确提出了要实现观测数据1 min内到达预报员桌面的要求.目前,探测技术和通信手段的飞速发展已经实现了数据的连续观测和自动上传,确保了观测数据的规范可靠,在提高观测的准确性和实时性方面进展很大,而且能大大减轻业务人员的工作量,提高工作效率[1-3].及时统计各类数据到报率和及时率能更好地辅助气象站点的运行监控工作,依据到报率和及时率分析各类数据在传输、处理环节的耗时能帮助数据业务流程的优化,提高数据到达预报员桌面的时效.对各类数据的传输时效保障已成为探测和信息部门的重要工作之一.因此,探讨如何快速地计算各类数据的传输时效是气象业务的一项迫切需求,而利用大数据技术实现这类计算,在当前具有很好的研究意义.

本研究结果显示,研究组治疗总有效率较对照组明显更高;研究组各症状消退时间均明显短于对照组;两组不良反应发生率相比无明显差异。提示采用盐酸氨溴索加盐酸丙卡特罗治疗小儿肺炎疗效确切,可明显促进患儿相关症状消退,同时不会增加不良反应,值得推广。

MapReduce是一种面向大规模数据处理的并行计算模型和方法,广泛应用于很多大规模数据处理问题.2004年,称为Hadoop的开源MapReduce并行计算框架和系统诞生了,并成为Apache开源组织下最重要的项目,自其推出后很快得到了全球学术界和工业界的普遍关注,并得到推广和普及应用.随着Hadoop分布式架构解决方案越来越成熟,气象部门已经逐渐意识到可以依靠Hadoop技术解决目前业务和科研中的气象数据计算、存储和检索的一些时效问题,并进行了一些尝试性的探索试验.例如,中国气象局国家气象信息中心开展了基于MapReduce计算模型开展气象资料处理调优试验[4]、基于Hbase建立了气象地面分钟数据分布式存储系统[5-6],并开展了Hadoop在气象数据密集型领域的应用试验[7],广东省气象局信息中心也在Haodop平台上实现了数值预报产品的服务[8]

本文以2015年中国人民抗日战争暨世界反法西斯战争胜利70周年纪念活动(2015年7月29—9月3日)期间的气象数据传输日志文件为数据源,基于Hadoop平台的MapReduce计算框架实现了各类数据逐日到报率和及时率的自动统计,并选择不同数量的文件进行MapReduce耗时对比试验.试验结果表明,将Sequence File格式文件作为MapReduce计算模型的数据源能更好地提升MapReduce并行运算的性能.

1 重大活动期间气象数据业务传输模式

根据中国气象局对中国人民抗日战争暨世界反法西斯战争胜利70周年纪念活动气象观测保障任务的要求,从2015年7月底启动北京周边多项探测数据的加密观测,并于7月29—31日、8月21日进行二次重大活动气象服务演练活动,演练结束后及时上报各项数据的到报率和及时率.此外,这些数据还需要进行快速处理,为北京市气象局内的业务系统和预报平台提供实时的数据服务,以便预报员和决策服务人员能第一时间用到这些数据.具体的观测任务包括北京及周边6个站的高空加密观测,京津冀国家级站开展的加密人工观测、云雷达观测、移动X波段雷达观测、卫星加密观测和天气雷达加密观测,同时增加京津冀10部风廓线雷达、4部微波辐射计的数据共享.所有的北京周边数据遵循省级共享业务规则通过新一代国内气象通信系统实现数据的实时交换,北京本地数据则遵循局内现有的业务传输和处理规则进行及时的预处理并提供数据服务,每一类数据存放一个目录.具体的数据传输流程如图1所示.

  

图1 气象数据传输流程Fig.1 Meteorological data transferring workflow

从试验的结果可以看出,MapReduce在执行过程中,是根据文件本身的大小来自动分配Map任务的个数的,程序中设定的Map任务数只是个参考,并没有起到决定性作用.输入的小文件个数越多,启动的Map任务个数也会随之增加,总体耗时反而有上升趋势.

2 数据传输时效的算法设计

2.1 传统方式下的算法设计

目前,统计数据到报率和及时率比较常见的方法就是将数据到达服务器的相关状态信息(例如文件大小、文件目录、文件传输速度等)写入数据库中,然后建立不同的查询条件通过计算得出统计结果.新一代国内气象通信系统的传输时效计算,也是通过更新数据库中某类资料的传输时效状态字,由底层线程定时对这些状态字进行统计得出传输及时率[9]的.由此可见,具体的算法步骤应该包括:

1)建立数据库表,包括到报率和及时率相关的数据表;

(2)农村居民点空间规模分布“热点”图结果表明,规模分布特征与密度分布特征呈现明显的负相关现象,农村居民点分布呈现大规模低密度和小规模高密度的空间关联特征。陇川县各乡镇农村居民点分布数量及规模差异显著,章凤镇和陇把镇农村居民点景观分布连片集中,清平乡、王子树乡、勐约镇与城子镇农村居民点景观更为分散破碎。

2)逐行解析FTP日志文件,将有效信息写入相关数据表;

3)从数据库表中查询某段时间内某类数据实际到达的文件总数,除以应该到达的文件总数,计算的结果就是到报率;

4)及时率的计算稍微复杂一些,以自动站为例计算某个观测时次的及时率,首先需要计算出每个站实际到达时间与观测时间之间的时间间隔,然后将时间间隔按照1、2、3、4、5 min以及大于5 min 6个级别分类,再用每个级别的时间间隔包含的站的总数除以总站数,即可得到6个不同级别的及时率.

2.2 基于MapReduce计算模型的算法设计

“数据汇入中心”服务器上的FTP日志文件记录的是所有数据的传输信息,一共有83类数据,而和重大活动相关的数据是17类,在设计算法的时候需要考虑将不相关的日志信息过滤掉.

铝位于元素周期表第三周期ⅢA族,铝元素在地壳中含量丰富,仅次于硅,自然界中的铝全部以化合态存在,是地壳中含量最高的金属元素,有着广泛的用途。新课标及考纲要求了解铝的主要性质及应用,铝与酸、碱反应的简单计算与比较。铝在高考中也常作为热点考点,这里有必要将铝的化学性质全方位进行归纳、总结,便于平时学习及备考复习,以提高学习及复习效率。

2.2.1 文本输入方式的算法设计

以文本输入方式作为数据源基于MapReduce的及时率算法步骤应该包括:

1)建立一个文本文件命名为filter-dir.text,逐行输入和重要活动相关的数据存放目录,并将文件传输到HDFS文件系统某个目录下;

2)重构Map类的setup函数,用于解析filter-dir.text内容;

1)将原本集中在一台单机上依靠顺序运行的算法改为可以并行运行,充分利用了所有的计算资源,节省了处理时间.每天的FTP日志文件大小大约是413~437 MB,传统模式下单个文件的入库处理就需要6~7 min的耗时,而在MapReduce模式下全流程的处理不到1 min.

4)在Reduce阶段,会自动算出每个“文件目录+观测时间+时间间隔”key出现的次数,除以该观测时间应到文件总数,得出的结果就是及时率.

2.2.2 Sequence File输入方式的算法设计

以Sequence File方式作为数据源的到报率和及时率算法和以文本输入方式作为数据源的类似,只需要将filter-dir.text文件按照Sequence File方式生成.另外,由于北京周边国家级自动站传输的是合报文件(一个文件中包含多个观测时次的多个站数据),不能直接使用上述的及时率算法,需要对自动站数据进行预处理生成包含每个站到达服务器的相关日志信息,才能使用上述算法.

2.2.3 MapReduce计算模型的数据流程

“新生儿睾丸扭转短时间内即可发生坏死,同时可能会引起全身炎症反应及影响另一侧睾丸,必须急诊手术,需紧急转到一师医院救治……”陈正副院长在询问患儿病情后,立即与一起参加义诊的一师医院小儿外科援疆专家钱云忠主任和泌尿外科方家杰副主任进行实时会诊,同时将患儿的检查结果和相关资料通过微信传给了其后方医院——浙江大学医学院附属儿童医院的泌尿外科专家徐珊主任,在返程的车上共同商讨和制定了周详的手术方案,指导赵主任立即进行手术前相关检查并联系120中心马上进行新生儿转运,争取为抢救患儿节省时间。

MapReduce计算模型的数据流程如图2所示.

  

图2 基于MapReduce的数据流程Fig.2 Data workflow based on MapReduce

2.3 基于MapReduce计算模型的算法与传统算法的对比

其次,教师发展场域,能够直面教学能力发展要素与发展动力的复杂性。发展教学能力,需要深入分析、把握教学要素之间的关系。

3)在Map任务解析文件过程中,如果文件目录属于重大活动相关的类别,开始获取文件的观测时间和到达时间并计算时间间隔,选择“文件目录+观测时间+时间间隔”的组合作为Map函数处理输出结果(key,value)的key,定义一个Int类型的变量one,设置值为1作为value,即将结果以(文件目录+观测时间+时间间隔,1)的格式进行输出;

微信服务目前在起步阶段,大部分已经开通了微信服务的中学图书馆,也只是仅仅开通了而已,并没有提供实质性的服务内容。究其原因,首先中学图书馆的师生都以高考和会考为主要目标,并不十分重视图书馆的相关工作;其次中学图书馆服务人员和管理人员的水平有限,在提升服务层次,优化服务技术方面力不从心;再次许多中学在管理过程中,以学习为第一要务,禁止学生携带手机,微信服务又离不开手机运营,造成该服务的受众不明朗;最后开发运营图书馆微信服务客户端,还需要投入资金支持和技术支持,需要校领导的重视和支持。中学图书馆要升级理念,改善服务还有很长的路要走。

2)传统的处理流程涉及到数据库建表、读写数据库、数据库统计等多个环节,逻辑处理也比较复杂,基于MapReduce的计算流程则简单很多,只需要合理设计Map函数输出结果的key就可以完成,Map和 Reduce之间的中间结果不需要程序干预,80多行代码就能完成所有工作[11-12].

3)充分利用Map函数的setup处理环节[13-15],可以灵活设定需要处理的数据类别.

3 系统性能测试

3.1 测试环境

测试使用10台服务器构建Hadoop集群,每台服务器的硬件配置如表1所示.测试使用的Hadoop版本是2.6,MapReduce版本是MapReduceV2,也叫Yarn.MapReduceV2将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度监控[16-17].新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调.这样的设计大大减小了 JobTracker(也就是现在的 ResourceManager)的资源消耗,并且让监测每一个Job子任务(tasks) 状态的程序分布式化,更安全、更优美[18-19]

 

表1 Hadoop集群中各主机硬件配置

 

Table 1 Configuration of host machinein Hadoop cluster

  

操作系统RedHat4.4.7-4CPUIntel(R)CPUE5-2640,主频2.60GHz内存128GB硬盘SAS300GB×2做的RAIDl,用于操作系统和软件;STATlTB×3用于Hadoop数据存储.网络千兆

3.2 样例数据集

数据源为2015年7—9月 “数据汇入中心”服务器上的FTP日志文件,每天一个,一共92个文件,数据总量约38.3 GB.分别选取3 h、6 h、1 d、7 d、10 d、30 d、90 d的文件作为数据样本,同时将这些时段的文本日志文件转为Sequence File格式文件,进行试验比对,样例数据的文件大小如表2所示.

 

表2 样例数据文件大小

 

Table 2 File size of different sample data

  

时间输入文件方式文本方式SequenceFile方式3h11MB14MB6h84MB93MB1d308MB392MB7d2.8GB3.2GB10d3.1GB3.7GB30d12.9GB13.2GB90d37.9GB38.4GB

3.3 测试方案和结果

3.3.1 在其他条件不变情况下,测试文件个数对计算结果的影响

进行3组计算.第一组的输入数据源为单个1 d的FTP日志文件,大小为308.4 MB,运行时间耗时18 s,MapReduce分解为9个Map任务和10个Reduce任务;第二组的输入数据源还是单个1 d的FTP日志文件,在程序中设置Map任务数为20,Reduce任务数为1,运行耗时16 s,MapReduce分解为9个Map任务和1个Reduce任务;第三组的输入数据源是1 d的逐小时FTP日志文件(一共24个),程序中同样设置Map任务数为20,Reduce任务数为1,运行耗时24 s,MapReduce分解为24个Map任务和1个Reduce任务.

从图1中可以看出,所有的数据先进入“数据汇入中心”,然后由数据实时分发系统触发后续的存档、预处理和数据服务工作,从而完成数据传输、处理、服务全流程业务任务.数据实时分发系统是基于消息事件模式的,监听数据汇入中心所有的文件目录,一旦发现新文件到达就会自动启动预先定义的处理线程完成后续的工作.而所有数据到达服务器的相关信息则由“数据汇入中心”服务器的FTP服务日志记录并按日期每天生成一个日志文件.这些日志文件就是本文开展研究和试验的数据源,遵行标准是VSFTPD(Very Secure FTP Daemon)类型的日志格式.

总之,“以人为本”的教育管理精髓可以诠释为:点亮人性的光辉,回归生命的价值,尊重个性的丰富发展,共创人类的繁荣和幸福”[4]。教育管理者只有重视弘扬被管理者的个性,尊重人性,才能培养真正的人。因此,管理者转变管理理念、注重管理的人本化、关注人性的回归已经成为教育管理改革的主旋律和时代最强音。

3.3.2 在其他条件相同情况下,测试计算结果随文件大小的变化

进行4组计算.第一组的输入数据源为文本方式的3 h、1 d、30 d、90 d的数据逐日到报率统计;第二组的输入数据为Sequence File方式的3 h、1 d、30 d、90 d的数据逐日到报率统计;第三组的输入数据源为文本方式的3 h、1 d、30 d、90 d的数据及时率统计;第四组的输入数据为Sequence File方式的3 h、1 d、30 d、90 d的数据及时率统计.试验结果分别如图3和图4所示.

  

图3 文本格式和Sequence File格式的到报率计算耗时对比Fig.3 Comparison of time consumed for calculating the arriving ratio between text file and Sequence File

  

图4 文本格式和Sequence File格式的及时率计算耗时对比Fig.4 Comparison of time consumed for calculating the timely rates between text file and Sequence File

从图3可以看出,在文件大小相同情况下,基于文本方式的到报率计算耗时明显高于Sequence File方式的计算耗时,而且随着文件的扩大,二者耗时差异更加显著.当文件大小增加到38 GB时,前者耗时为后者的2.6倍.图4和图3类似,当文件大小增加到38 GB时,基于文本方式的及时率耗时是基于Sequence File方式的2.4倍.Sequence File方式将文本数据的存储结构变化为二进制格式,使数据的表达更为紧凑,更适合作为MapReduce的数据输入源,从而提高了MapReduce的运行效率.

4 结论

本文以气象数据传输的FTP日志文件为例,在Hadoop平台上基于MapReduce实现了气象数据的到报率和及时率的统计,选择文本文件和Sequence File方式作为MapReduce的数据输入源进行对比试验,开展了一系列的数据样例测试.测试结果表明,利用Sequence File对文本文件进行的序列化后,在同一场景中的计算处理效率有明显提升.此外,本文试验是基于Hadoop2.6的版本,MapReduce已经升级为MapReduceV2,Map任务的个数与输入文件被划分的块数量相关,在程序中自定义设置的Map任务数只是个参考,这一点与低版本的MapReduce不同.与传统的处理方式相比,基于MapReduce实现气象数据的到报率和及时率的统计效率更高,处理流程也简单,这种研究探索的可行性和适用性还是十分有意义的.

[2] 中国气象局.地面气象观测规范[M].北京:气象出版社,2003:133-139

参考文献References

[1] 李雁,梁海河,孟昭林,等.自动气象站运行效能统计[J].应用气象学报,2009,20(4):504-509

LI Yan,LIANG Haihe,MENG Zhaolin,et al.The statistic of automatic weather station’s efficiency[J].Journal of Applied Meteorological Science,2009,20(4):504-509

然而,基于MapReduce的计算模式适合大量离线的分析和处理,并不适用于实时的日志分析处理.另外,在本文的试验中,到报率和及时率是由Reduce任务直接输出以文本方式保存,查看不方便也不直观,存在一定弊端.在后续的研究工作中,将探索flume、kafuka、Hbase技术,将统计的到报率和及时率快速写入Hbase中,并利用flume和kafuka实现FTP日志的实时统计.

在新时期的发展背景下,企业的会计管理工作的改革和强化,就要从企业内部入手,加强会计管理的力度,完善会计管理的制度,加强会计人员的专业水平和素质,才能够保证会计部门的工作效率,保证企业的可持续发展。

China Meteorological Administration.Specifications for surface meteorological observation[M].Beijing:China Meteorological Press,2003:133-139

[3] 中国气象局.地面气象观测数据文件和记录簿表格式[M].北京:气象出版社,2005:9-46

ZENG Le,CHEN Donghui,XIAO Weiqing,et al.Application of the storage and searching of meteorological data based on Hadoop[J].China CIO News,2014(8):138-140

[4] 杨润芝,沈文海,肖卫青,等.基于MapReduce计算模型的气象资料处理调优试验[J].应用气象学报,2014,25(5):618-629

YANG Runzhi,SHEN Wenhai,XIAO Weiqing,et al.A set of MapReduce tuning experiments based on meteorological operations[J].Journal of Applied Meteorological Science,2014,25(5):618-629

[5] 陈东辉,曾乐,梁中军,等.基于Hbase的气象地面分钟数据分布式存储系统[J].计算机应用,2014,34(9):2617-2621

CHEN Donghui,ZENG Le,LIANG Zhongjun,et al.HBase-based distributed storage system for meteorological ground minute data[J].Journal of Computer Applications,2014,34(9):2617-2621

[6] 曾乐,陈东辉,肖卫青,等.基于Hadoop的气象数据存储检索应用研究[J].信息系统工程,2014(8):138-140

China Meteorological Administration.Data file and record table format of surface meteorological observation[M].Beijing:China Meteorological Press,2005:9-46

[7] 肖卫青,杨润芝,胡开喜,等.Hadoop在气象数据密集型处理领域中的应用[J].气象科技,2015,43(5):823-828

XIAO Weiqing,YANG Runzhi,HU Kaixi,et al.Application of Hadoop in data-intensive processing of meteorological data[J].Meteorological Science and Technology,2015,43(5):823-828

[8] 李永生,曾沁,徐美红,等.基于Hadoop的数值预报产品服务平台设计与实现[J].应用气象学报,2015,26(1):122-128

LI Yongsheng,ZENG Qin,XU Meihong,et al.Design and implementation of NWP data service platform based on Hadoop framework[J].Journal of Applied Meteorological Science,2015,26(1):122-128

要素禀赋重心和经济重心的耦合研究结果表明:(1)1978~2017年我国劳均资本重心位于我国经济重心的西北方向,1992~2017年两个重心呈现出 “趋同——偏离——趋同” 的演变关系;(2)劳均资本重心和经济重心的变迁反映了经济政策的变动,改革开放政策的实施、市场经济制度的建立、西部大开发战略的提出都对我国劳均资本重心和经济重心的移动产生了影响,尽管当前对中西部地区经济发展实行了政策扶持,但东西部经济仍可能会进一步拉大;(3)基于我国劳动力重心较为稳定、资本重心阶段性移动的特征,推断我国劳均资本重心和经济重心耦合关系的变化,更多由区域资本存量的变化所引起。

[9] 林润生,孙周军,谭小华,等.新一代国内气象通信系统设计与实现[J].气象,2011,37(3):356-362

LIN Runsheng,SUN Zhoujun,TAN Xiaohua,et al.The design and implementation of the domestic next-generation meteorological telecommunication system[J].Meteorological Monthly,2011,37(3):356-362

[10] Guha S,Hafen R,Rounds J,et al.Large complex data:Divide and recombine(D&R) with RHIPE[J].Stat,2012(1):53-67

与传统的计算方法相比,基于MapReduce编写数据传输时效算法的优越性主要体现在以下几个方面:

在正交试验优化的基础上,通过固定两个工艺参数在最佳水平,研究另一个参数对AE44镁合金雷达外壳组织和性能的影响.

[11] Deri L,Mainardi S,Fusco F.TSDB:A compressed database for time series[C]∥Proceedings of the 4th International Workshop on Traffic Monitoring and Analysis,2012:143-156

在盾构完成穿越桥梁桩基后,对穿越高铁影响范围内的管片,利用管片上的注浆孔自下而上进行二次注浆,浆液采取快速凝结的双液浆,注浆压力不大于0.4MPa,以确保管片壁后空隙填充饱满。

[12] Esteves R M,Pais R,Rong C M.K-means clustering in the cloud-A Mahout test[C]∥Proceedings of the 2011 IEEE Workshops of International Conference on Advanced Information Networking and Applications,2011:514-519

[13] Cooper B F,Silberstein A,Tam E,et al.Benchmarking cloud serving systems with YCSB[C]∥Proceedings of the 1st ACM Symposium on Cloud computing,2015:143-154

[14] Han J,Song M,Song J.A novel solution of distributed memory NoSQL database for cloud computing[C]∥Proceedings of the 10th IEEE/ACIS International Conference on Computer and Information Science,2011:351-355

[15] Loohach R,Garg K.Effect of distance functions on simple K-means clustering algorithm[J].International Journal of Computer Applications,2012,49(6):7-9

[16] Alshammari H,Bajwa H,Lee J.Hadoop based enhanced cloud architecture for bioinformatic algorithms[C]∥IEEE Conference on Systems,Applications and Technology,2014:1-5

[17] Matsunaga A,Tsugawa M,Fortes J.Cloud BLAST:Combining MapReduce and virtualization on distributed resources for bioinformatics applications[C]∥IEEE Fourth International Conference on eScience,2008:222-229

[18] Han J,Haihong E,Le G,et al.Survey on NoSQL database[C]∥The 6th International Conference on Pervasive Computing and Applications,2011:363-366

在建筑企业经营工作的开展过程中,为了提高企业的经营利润,推动经营利润最大化,一般会采用赊销的方式。但是在当前的市场经营过程中我们可以发现,利用赊销方式开展交易的建筑企业之间存在经营优势方和劣势方,特别是采用现收现付营销方式的建筑企业,其经营效益相对较低,顾客范围也会受到限制,导致其经营效益下降。这就使得赊销方式在建筑企业经营发展过程中占据了越来越高的地位。但是该方式在购货中存在一定的问题,对购货单位的信用程度提出了挑战,一旦出现坏账,企业在周转过程中缺乏充足的资金,会影响建筑企业的正常运行。

[19] Vora M N.Hadoop-Hbase for large-scale data[C]∥International Conference on Computer Science and Network Technology,2011:601-605

参照我校历年招生的英语高考成绩,结合2017级学生的实际情况,确定选择教育部考试中心设计的全国英语等级考试PETS二级笔试真题试卷中的听力部分组织摸底考试。试卷包括短对话、长对话和独白,共20个选择题。考试由各班任课老师在17818学期的第一次听说课上组织学生在课堂上进行现场测试。测试结束后,立即回收试卷,并由任课老师阅卷和提交各班的听力成绩。本文使用社会科学统计软件包SPSS17.0为统计分析工具,主要采用秦晓晴教授提出的“描述性统计分析”、“单因素方差分析”方法[4],对相关数据进行统计与分析。

 
赵文芳,刘旭林,桑雪竹,王鳞春
《南京信息工程大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号