更全的杂志信息网

智慧农业大数据平台构建的研究

更新时间:2009-03-28

大数据技术伴随物联网、云计算、互联网、移动通信等技术发展而快速兴起,是推动智慧农业发展的重要驱动力。农业大数据是大数据理论、技术和方法在农业领域中的实践和应用[1]。智慧农业中的数据来源广泛,包括跨领域、跨行业、跨专业的数据集合,具有大规模、分布式、类型多样、结构复杂等特点。智慧农业大数据的核心任务是[1,2],利用大数据技术从实时、纷繁复杂的海量数据中提炼出价值、创造出智慧,使现代农业的管理、控制、预测和决策更具“智慧”特征,提升智慧农业发展速度和质量。

当前在国内,农业大数据应用研究尚处于起步阶段,现实研究成果少,体系尚不完善。已有的较为完善的农业大数据应用解决方案不多,且大都是为大型用户提供一体化设计,而单独为涉农领域提供一致可用的、普适的农业大数据平台甚少[3]。其次,一些涉农企业拥有实时的或在线的海量数据资源,急需利用大数据系统来解决实际应用管理问题,但由于研发技术含量高而不具有自主构建能力。此外,涉农企业通过专业IT机构构建时,需根据自身个性化需要来单独定制,但投入资金大、定制成本高昂,难以被多数用户普遍接受。因此,为满足智慧农业大数据现实需求和应用普及,降低使用成本,同时解决信息孤岛、隐私安全等问题,迫切需要研究农业大数据总体解决方案,构建服务于农业多领域需要、针对用户个性化定制需求、适应扩展变化要求、用户隐私安全保护、数据资源共享且分离等特征的智慧农业大数据平台。

临床上面对“镜面人”这类罕见病例,外科医生手术治疗应站在内脏器官反位的角度去思考和操作,并精细分辨除脏器反位以外的解剖结构变异,积累经验,提高诊治能力。

一、智慧农业大数据需求分析及解决方案

对于设施环境监控、自动灌溉、智能植保、智能农情、农产品溯源、电商与物流等智慧农业自动化管理系统,系统产生实时大量的异构型数据,对这些系统内含数据进行价值发现、挖掘和提炼时,从采集、清洗、整合到挖掘都需要对各种不同形态结构数据进行准确判别、精细划分、相关性分析处理。由于缺乏统一、成熟的农业大数据标准体系,使得开发面向各种应用场景需求的大数据平台面临诸多困难和问题。为此,基于大数据价值链形成过程,通过纵横两相分析,提出智慧农业大数据一体化解决方案(附图)。图中,大数据系统包含承担不同作用的5种角色,即大数据的提供者、消费者、处理者、运行框架、协调者。

突破基督教教义所赋予的神圣婚姻,这在一个宗教信仰者看来是必须接受惩罚的。安娜·卡列尼娜既是可爱的,富有生气的,又是罪恶的,但似乎是一种纯洁的罪恶。托翁曾说:“我选用这个题词,正如我曾解释过的,只不过是为了表达一种思想:人们所做的坏事有其痛苦的后果,这不来自于人,而是来自于上帝,安娜·卡列尼娜就亲自体验了这一点⑥。”作者本人似乎并不相信社会上所流行的宗教信仰,但是对于安娜违背宗教教义这一条,他显然也是不赞同的。由此得出,安娜之死是列夫·托尔斯泰刻意为之,读者也就能进一步体会到作者内心的痛苦、矛盾和挣扎。

横向上为信息价值链,揭示从数据抽取、集成、分析到价值呈现的信息流服务过程,表明在提供者、处理者、消费者之间的数据流动,数据提供者是实际场景中的信息系统,提供系统中存在的或实时动态的结构化数据和异构型数据。该方案中,大数据提供者也是大数据消费者,数据消费者在消费数据后生成和提供新的数据;同时数据提供者和数据消费者可依据不同场景相互转换,使其他数据消费者共享数据处理者提供的价值信息。对数据消费者,可根据行业数据提供相应业务,满足个性化业务需求。纵向上是大数据集成服务链,部署大数据处理系统、存储系统、基础设施,提供管理工具及软件支撑,服务于大数据价值链的形成。同时,质量管理、安全隐私作为大数据系统关键功能构件,集成在大数据解决方案中,贯穿于采集、存储、传输、分析、展现的信息价值链全生命周期,确保数据的一致性、准确性、完整性、安全性。

通过课外实验,让学生在自主创造和自己动手中体会学习物理知识的乐趣,并在学习中加深对知识的理解。在教材中,很多生活化的实验都可以让学生借助生活材料学习,并在课下自主探索。

二、智慧农业大数据平台构建

(一)大数据系统架构

1 数据交换层

针对智慧农业信息系统业务特点,为满足对不同场景大数据多源异构存储与处理的多样性、个性化要求,同时解决已有数据存储、计算和处理框架的不足,由数据中心统一集中存储管理,以大规模集群方式融合多种架构来存储和处理海量数据,解决数据冗余、资源利用率、数据共享、运维成本等问题[4]。本设计提出一种混合型大数据架构,该架构自底而上分为数据交换层、数据存储层、数据处理层、集中资源管理层。融合多种分布式存储技术构建大规模、多层次、一致性、透明化的数据存储与管理模型,以及融合并行计算、内存计算、批处理、流式处理等计算引擎,优化大数据处理性能,采用通过一体化的集中资源管理层保障系统的高可用性、扩展性和可靠性。

数据交换层包括数据采集层和价值呈现层,该层运用基于互联网Web服务(如Webservice)的数据交换接口及协议,使外部系统与大数据平台互联互通,建立数据交互访问。采集层采用分布式数据采集层,以流水化、并行方式抽取、转换和载入数据,实现对多源异构数据的高速导人。支持对文本、表格、图形图像、XML文件等多种数据源数据抽取,融合主动推送Push和被动拉取Pull两种数据传输方式在系统内部进行数据存储、处理,可按需定义清洗、编码、分发和转换等预处理操作,同时可动态扩展以提高数据吞吐量,且可根据性能需求配置可靠性级别。

  

附图 大数据应用解决方案

吃完饭大家都散了,甲洛洛想想西西突然变红的脸,心里暖暖的,看到西西那浅绿的瓷碗里还剩小半碗饭,他便端起碗,一小口一小口地品味:她的胸脯肯定很大,那么厚的衣服都挺得起来,还有那屁股,软软的、滑滑的……哎!多么笨的女人,错过了多少美好的事!

构成美术作品的形式语言要素是点、线、面、体积、色彩、明暗、构图、肌理。美术形式语言要素构成的主要因素是图像。根据图像反映客观物象的不同情况,可以将美术作品分成三大类:具象美术、意象美术、抽象美术。

大数据存储层采用分布式外部存储、结构化/半结构化/无结构化数据库、分布式内存三级层次存储架构,包括分布式文件系统、基于分布式文件系统的关系型数据库、NoSQL高并发数据库和内存数据库。分布式文件系统可以直接存储来自智慧农业系统中的文本、音频、视频文件,并为上层数据库提供高可靠、可扩展的文件存储;关系型数据库存储一致性、结构化的业务数据;NoSQL数据库用来存储历史日志数据、气象信息、社会经济数据这类半结构化或者结构化特征较弱、主要考虑存取性能和可扩展性的数据;内存数据库则存储各种经常使用或需要加速处理的数据,如索引、中间结果、维表数据等。

系统对大文件数据并行处理前需进行切分来控制待处理数据的大小,文件分块策略是保证数据高并发读写及处理效率的前提。因此设计中,利用MapReduce工具将HDFS文件切分成固定大小(一般为64 MB)的数据块,分发到不同计算节点中。作业任务启动时,各节点对应于不同计算任务,通过监控节点状态和同步控制执行,尽可能多地将数据块转移至可用节点进行处理,减少通信时延和开销,实现数据向代码迁移。

设计中基于Hadoop框架构建实现大数据核心模块,主要包括:(1)分布式文件系统HDFS,存放PB级别海量数据,提供高聚合文件读写,具有高可扩展性、高可靠性、容错性、高并发访问。(2)分布式数据库Hbase,建立在HDFS之上,主要针对在线数据的实时存储、管理和NoSQL查询服务而设计,实现结构化、非结构化数据的高速并发读写,支持单行ACID事务处理、面向列压缩,有效降低磁盘I/O。(3)数据仓库工具Hive,建立在Hadoop之上,管理HDFS或Hbase中的结构化/半结构化数据,利用HQL查询语言并执行MapReduce程序完成对海量数据的抽取、转换、存储、查询分析操作。(4)并行计算工具MapReduce,通过并行接口程序处理键值对数据,进行任务调度管理、监控程序执行状态,协调各计算节点同步及中间处理结果收集汇总。(5)同步服务ZooKeeper,用于分布式系统的一致性、可靠性维护、应用配置管理和统一命名服务,维护重要状态数据、检测数据变化。(6)数据流处理工具Pig,适应海量数据分析的需求,使用数据流脚本将复杂的数据分析任务转换为并行运行的MapReduce作业。(7)数据分析挖掘工具Mahout,利用可扩展的机器学习类库,实现分布式数据挖掘。(8)结构化数据交换工具Sqoop,提供在Hadoop和结构化数据源(如关系型数据库)之间快速数据交换,批量导入导出数据。(9)日志数据收集工具Flume,提供海量日志数据的高效采集、聚合、迁移。(10)集群监控管理工具,以图形化方式提供集群配置、安装、管理、优化服务,监控集群节点状态,提供报警功能。

大数据系统由硬件系统和软件系统构成,设计中硬件系统采用低成本服务器来搭建基础设施,安装Hadoop开源项目,部署大规模计算机集群并配置虚拟资源环境,适应上层大数据应用需求。在硬件系统上搭建软件系统,核心是在软件层面提供稳定、高效、可管理的分布式计算处理系统,实现分布式数据存储、并行计算[3,5]

2 数据存储层

基础设施资源层采用云计算IaaS模式的虚拟化平台,包括分布式计算机集群、集群控制管理工具,实现作业管理及资源调度,提供对计算、存储和网络等资源的统一监控和自动分配,提高系统可用性、资源利用率。集群集中控制管理提供集群系统的安装、部署和配置,管理计算、存储和网络资源及监控各节点运行情况,设置数据访问授权、身份认证、加密等安全机制,增强系统可管理性和易用性。集群资源管理中将资源调度和任务控制相分离,采用统一资源调度框架在各节点之间进行资源分配和调度,使节点仅需关注内部任务的控制和调度,减轻节点压力,提高整个系统可扩展性。

(二)大数据系统核心模块

4 基础设施资源层

大数据处理层采用分布式计算混合型处理架构,包括内存计算、批处理、图计算、交互式分析处理、流处理等引擎。内存计算提供对异构存储介质的分布式内存抽象,实现缓存数据、提高I/O性能,采用并行流水化和线程级轻量框架加速数据处理。批处理面向离线数据密集型并行计算,如分类、聚类、关联规则等数据挖掘算法。图计算处理离线图结构数据,如农产品溯源系统、电商物流平台等。交互处理用以快速响应应用层标准SQL请求,如查询、聚合和关联等。流处理引擎面向连续、实时的流数据处理,如时间窗查询统计、清洗转换和异常报警等。高性能计算引擎基于MPI、OpenMP等特定编程模型重载类型配置,满足紧藕合、迭代计算应用需求。

三、关键技术

(一)负载均衡策略

基础设施的更新和集群环境的部署使系统横向扩展性、纵向整体性能上得到大幅改善,提升了分布式计算存储与处理能力。但系统节点规模增大、数据量增长也引起系统载荷增加。设计中采用YARN全局资源配置管理器(Resource Mananger),启动任务调度时根据不同作业均衡分配资源,减轻系统主控节点负载,提高资源利用率;在资源管理功能失效时利用ZooKeeper工具进行恢复,确保系统高可用性。

(二)文件分块技术

3 数据处理层

(三)并行处理性能优化

分布式集群系统中,MapReduce并行计算能够很好地支持大数据的离线批处理,不能对流式大数据、在线实时数据处理。为解决交互式查询、流式大数据处理、内存计算、在线计算等问题,系统构建中将Spark计算框架无缝整合到MapReduce并行计算模型中,Spark以独立进程方式运行在分布式集群环境中,驱动Hadoop YARN集群管理器运行,处理大规模数据集时,大幅减轻节点数据分发、任务调度、资源分配管理的负担,实现批处理、迭代算法、交互式查询、流处理、图计算,与MapReduce批处理相比也更具伸缩灵活性、高效性。

(四)故障检测恢复技术

低成本服务器构成的大规模计算集群中,因负载过重等因素易于引发节点设备故障失效、软件出错、中间结果不一致等问题,导致系统整体性能与服务质量降低。针对这一问题,除利用基础设施横向扩展集群规模外,采用监听、分布式锁、一致性存储、自动接管、自动重启技术完成实时故障检测和控制,监控集群节点加入、失效、退出等动态变化。节点单点失效时由其他节点快速自动补位,失效节点恢复后自动加入调度任务,恢复系统状态,确保系统可用性、可靠性、健壮性。

四、应用实例——设施农业大数据系统

在种植业生产管理中,设施环境监控系统是基于物联网的设施农业自动化、智能化管理系统,通过布设于生产环境区域的传感器、数字摄像机、测报灯、生态检测仪等全功能设备,收集、汇聚实时多样化环境感知数据、作物生长数据(温度、湿度、光照、CO2、土壤成分、作物长势、病虫状况等),经Web服务交换接口接入大数据系统,传输数据进行在线分析,服务于设施环境生产智能化管理。

大数据系统处理过程如下:(1)数据验证,对数据来源的可靠性、安全性进行认证;(2)数据分类,按异构类型(结构化、半结构化、非结构化)对文本、图像、视频数据进行分类;(3)标准化,为便于多样性复杂数据表征以及多源异构数据处理需要,以多维向量模型来统一数据标准化表示及数据描述,并采用元数据进行标识,如温度数据表示为(时间、空间、资源、数值、用户),其中空间信息又可表示为(经度、纬度、高度)三维坐标;(4)数据清洗,利用高阶奇异值分解及矩阵变换法进行清洗、转换、合并,消除冗余、噪声及不一致数据,获得高质量数据;(5)并行处理,满足在线增量数据处理实时性要求,把向量空间数据分解成多语义子空间部署在Spark+MapReduce上,通过集群并行计算加快清洗、转换速度,通过HDFS存储中间结果,提交给批量任务引擎、数据流引擎,通过交互式引擎生成查询结果;(6)数据分析挖掘与价值呈现,包括在线数据分析和离线数据分析,前者接收数据流引擎传递数据,后者处理批量任务引擎数据,基于不同应用需求自适应选择挖掘算法,产生多维决策数据,利用灵活多样的可视化模板呈现查询、统计分析结果,以图表、曲线直观方式展现。

生产管理人员在对作物生产环境及生长状态实时直观监测的同时,依据大数据系统呈现价值并结合专家系统优势形成多维决策,解决单一要素决策的弊端,对温控、调光、换气、灌溉、施肥、喷药、卷模等执行设备合理控制及农资投放,获得最佳作物生长环境,实现农业生产管理决策精准化、可视化、智能化。

不过,西方很少强调媒体的教化功能,这一功能往往隐藏在“客观性原则”的背后。长期以来,欧美报业号称奉行“只报道事实,不报道意见”(罗翔宇2002:45)的客观报道原则,事实却并非如此。席勒在1969年就指出,美国的传播事业实际上已经成为军事部门、政府机构和垄断集团共同控制的“军事-工业联合体”,(转引自骆正林2011:6)并无任何客观中立性可言。乔姆斯基也曾表示,《纽约时报》看上去像一份官报。(ibid.:7)由此可以看出,西方媒体遵从本国意识形态进行新闻报道,其功能就是为读者构建某种特定的叙事并引导其接受这种叙事。

参考文献

[1]温孚江.大数据农业[M].北京:中国农业出版社,2015.

[2]林子雨.大数据技术原理与应用:概念、存储、处理、分析与应用[M].北京:人民邮电出版社,2015.

[3]陈敏,张东,张引,等.大数据浪潮[M].武汉:华中科技大学出版社,2015.

[4]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862.

[5]黄宜华.深入理解大数据[M].北京:机械工业出版社,2017.

 
毛林,成维莉
《农业网络信息》 2018年第06期
《农业网络信息》2018年第06期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号