更全的杂志信息网

面向专题地图编制与更新的互联网空间数据获取与处理

更新时间:2016-07-05

0 引言

专题地图编制与更新是研究将各种专题信息进行收集、分析、分类与综合后进行图形化表达,并且保持对专题内容的定期或动态更新的技术。其中,专题信息的内涵十分丰富,既包括地形、地貌、气象、水文、土壤、植被、动物等自然信息,也包括政治、人口、经济、文化、历史等人文社会信息[1]。作为专题地图的基础和“血液”,空间数据的精度、现势性、数据量等指标一直是影响专题地图编制与更新的核心因子。随着大数据时代、信息化时代的到来以及数字地球、全球测绘等重大工程的开展,专题地图在社会经济各领域、各层次的应用日渐广泛,空间数据的体量和质量对专题地图的重要性愈发突显,尤其像境外专题地图的编制、更新与生产,更离不开体量大、现势性好、高精度的空间数据作为支撑。在这种形势下,利用基于传统测绘手段得到的地理数据(以下简称为基础地理数据)进行专题地图编制与更新,存在数据源严重不足、数据现势性差等问题,这与专题地图的快速发展和广泛应用不相适应。

互联网作为现今最大的数据共享或交易平台,上面广泛存在着大量的空间数据和位置信息,我们将其统称为互联网空间数据。互联网空间数据来源广泛、体量大、形式多样、内容丰富,最重要的是现势性强,可以有效解决目前专题地图编制与更新中存在的信息源不足、信息滞后等问题,为各生产单位的专题地图编制与更新提供重要的数据保障。

本文面向专题地图编制与更新,介绍传统的生产作业任务中常用的几种数据源,以及互联网空间数据的定义、分类及特点,最后重点提出并阐释四种互联网空间数据获取方法,并介绍互联网空间数据处理的基本内容与流程。

1 传统专题地图编制工作中的数据源

在专题地图编制中,常见的数据源主要包括以下几种:

第一,3月份是猕猴桃伤流高峰期。伤流对嫁接成活率影响主要有3个方面:一是伤流在伤口愈合面形成水膜类似隔离层,不利于伤口愈合;二是伤流将嫁接伤口包裹,伤口处温度难以提升,影响伤口愈合;三是伤流液容易滋生病菌,特别是溃疡病菌,给伤口愈合带来威胁。

为落实好“三步走”的发展战略,医院积极拓宽“六个服务领域”,在以强大技术优势截留去京津就医人群的基础上,以质优价廉服务惠泽基层百姓;勇于承担社会责任,通过帮扶乡镇卫生院和社区卫生服务机构、开展出院患者回访等措施,基本构建起了从院前健康服务到院后跟踪服务,从乡镇农村到城市社区,从普通患者到高端人群的全方位服务网络。系列举措,恰与《“健康中国2030”规划纲要》倡导的“提供公平可及、系统连续的健康服务,实现更高水平的全民健康”不谋而合。

1.1 地图数据

地图数据是编制专题地图的主要数据源,包括各种比例尺的普通地图、专题地图和相应的地图数据库数据等。地图数据获取主要通过利用现有高精度地图数据产品(如已有的系列比例尺地图数据库中的数据)、遥感影像矢量化[2]、实地测量、GPS测量等多种途径获得。

1.2 遥感数据

遥感是对大范围空间中的地理要素进行制图或变化监测的有效手段[3]。利用卫星、激光雷达和飞机(包括无人机)等手段获取的航天、航空遥感影像上包含了大量的专题信息,因此遥感数据是进行专题分析和专题地图编制的重要数据源,也是目前专题地图更新的主要数据源。

1.3 文本和图片资料

近年来,文本和图片资料在专题地图中占的比例逐渐增加,也极大丰富了专题地图的表示内容。文本资料是指各行业、各部门的文字报告(包括科学论文、科研报告、资料说明以及与专题内容有关的文章等)和其他相关的法律文档、行业规范、技术标准、条文条例。

1.4 音频和视频数据

这里的音频和视频数据主要是指含有空间位置信息的音频和视频资料,属于多媒体类型的数据。相比文字和图片数据,音频和视频数据能够更加形象、生动地表达空间信息,因此,融合音频和视频数据的专题地图(典型的如多媒体电子地图、导航电子地图),相比传统的专题地图会具有更强的表现力和更丰富的地图内容,也更贴近用图者的感官和空间认知。

(2)提高乘客效率。大量的私家车都行动起来了,乘客在除了固有的路边打的方法外,还能通过手机等移动终端上输入始发地和目的地进行操作,这些信息会很快传载给附近的网约车司机,这样就可以在最短的时间上车,提高了叫车的成功率。

1.5 统计及其它数字资料

统计及其它数字资料主要来自各级政府的有关统计部门和各专业单位的统计机构所搜集、整理、发布的各种统计信息。统计及其它数字资料主要包括社会经济数据、人口普查数据、野外调查和监测数据等,可以作为专题地图编制的重要资料或补充资料进行充分利用。

传统专题地图编制与更新工作中存在着资料现势性不强、数据资源匮乏,数据内容多样性不足的问题。

2 面向专题地图编制与更新的互联网空间数据获取与处理

2.1 互联网空间数据概述

API(Application Programming Interface,应用编程接口)是上述服务型门户网站常见的一种应用,即服务商将自己的网站服务在开放平台上封装成一系列的API,并开放给第三方开发者使用,实现对网站上数据的获取。通常,这些API能够覆盖所在网站开放平台的全部功能,用户通过调用API即可获取海量的互联网空间数据,进而基于这些数据开发各种应用[9]。下面以获取微博上的空间数据为例,介绍基于API获取的一般流程。

受“开源”思潮的影响,国内外大量的组织、机构和公司在互联网上设立门户网站,面向公众开放一些经过挑选与许可,不受著作权、专利权以及其他管理机制所限制,任何人都可以自由版权使用的空间数据[6]。这些组织机构包括诸如开放街道图(OpenStreetMap)、共享知识(Creative Commons)、开放获取(Open Access)、开放知识基金会(Open Knowledge Foundation)等国际上知名的开放数据组织,和国家数据、城市数据派(Urban Data Party)等国内一些致力于促进数据开放的组织机构,以及新浪微博(weibo.com)、百度(baidu. com)等大批互联网公司。这些数据可以通过访问这些组织、机构或公司的门户网站免费下载得到。

2.1.2 互联网空间数据的分类及特点

中国高技术制造业增加值影响因素的面板数据模型分析 ……………………………………… 刘 硕 胡泽文 智 晨(4/17)

2.2.4 基于网络爬虫获取

表1 互联网空间数据的分类及特点

数据名称举例特点基础地理数据数字栅格地图DRG数字线划地图DLG数字高程模型DEM数字正射影像DOM数据体量大,较为规则空间轨迹数据共享单车轨迹数据微博位置签到数据数据体量大,半结构化,信息细碎,价值稀疏,地理精确性低空间媒体数据互联网图像与视频数据社交网络数据监控摄像头数据、传感器数据在线电子商务、智能金融数据多源异构,价值密度低,实时性强

2.2 面向专题地图编制与更新的互联网空间数据获取

从表1可以看出,从互联网上获取空间数据可以为专题地图编制与更新提供体量大、现势性好、专题性强的空间数据,是对专题地图编制与更新中数据源的有力补充,可以有效解决传统专题地图编制与更新中存在的数据问题。目前,互联网空间数据的获取方法主要有免费下载、付费购买、基于API获取和基于网络爬虫获取等方法。

2.2.3 基于API获取

信息化时代中,互联网作为最大的数据资源共享平台,其上面存在着海量的地理空间数据,我们称之为互联网空间数据。互联网空间数据属于空间数据的一个子集,不仅以文本、图片、音频、视频等多种形式存在,而且其中都包含了空间位置信息。这种空间位置信息最常见的表现形式是经纬度坐标,如“(25.0421840000,121.5248710000)”,但也可以表现为地名、方位、高程、范围等其它形式,如“甘肃-兰州”。互联网空间数据的来源极为丰富,既包括官方权威部门采集、上传的数据(如人口调查、第二次国土资源调查、地理国情调查等),也包括通过开放性由众多参与者完成的数据[5]

也许他是对的?叶晓晓不知道该怎么跟他说出自己的顾虑。陈小北一直帮她,从开始在网上发现她,他就一直不遗余力地帮她,没跟她提钱,更没对她伸手动脚,甚至还在某些时刻为她花了不少钱,她怎好把这些不信任地话说出口?

2.2.2 付费购买

通过免费下载得到的互联网空间数据的体量依然较小,而且数据精度不一定能够满足实际专题地图编制任务的应用需求。相比之下,通过向互联网上的官方权威机构付费购买得到的互联网空间数据产品,由于经过了专业清洗和处理,数据精度和数据实效性等更有保证[7]。付费购买主要有两种途径,一种是从专业的GIS数据供应商购买,比如国外的Tele Atlas、DeLorm,国内的四维图新、高德公司等;另外一种是利用互联网大数据交易平台进行购买,如IBM、1010data和国内的数据堂[8]等。

2.2.1 免费下载

2.1.1互联网空间数据的定义

要基于微博API获取互联网空间数据,用户需要在微博开放平台上注册成为开发者,然后创建应用,取得应用标识,再经过平台的授权(常见的授权是OAuth授权),即可通过调用地理位置相关的API接口,或基于开放平台提供的SDK开发包获取微博平台上的空间数据[10]。经编程实践,得出基于API获取微博上空间数据的具体流程如图1所示。

互联网空间数据主要可分为以传统矢量、栅格等形式存在的基础地理数据(简称基础地理数据)、人类基于位置服务产生的空间轨迹数据(简称空间轨迹数据)和以多媒体形式存在的空间数据(简称空间媒体数据),各种数据及其特点如表1所示。

网络爬虫是按一定的逻辑规则自动爬取并解析网页的程序或脚本,它为搜索引擎从Web站点下载网页,是现代搜索引擎的核心组成之一。它把网页看作若干节点,把网页之间的关联链接看作有向边,以遍历有向图的形式访问、遍历网络中的其他节点[11]。网络爬虫有很多种类,按照系统结构和实现技术,可以分为通用网络爬虫、主题网络爬虫、增量式网络爬虫和深层网络爬虫等。互联网空间数据也可以通过网络爬虫来获取,此类网络爬虫被称为空间敏感爬虫,它通常是上述一种或者几种网络爬虫结合空间信息相关技术实现的,主要思想是通过搜索引擎检索出包含空间信息的网页(称为空间敏感网页)作为初始种子,然后通过开源爬虫框架获取这些网页,最后再通过空间信息解析匹配等相关技术实现空间信息的提取。

图1 基于API的微博空间数据获取流程

经编程实践和总结,得出利用空间敏感爬虫获取互联网空间数据的流程如图2所示:

2.3 面向专题地图编制与更新的互联网空间数据处理

2.3.1 数据预处理

吴珂琦等[3]等利用改进Hummers法制备氧化石墨烯材料(GO),以GO为载体,通过溶胶混合法成功制备TiO2/GO复合催化剂,探究TiO2/GO复合催化剂的浓度对罗丹明B(RB)模拟废水吸附性能以及光催化性能两种性能的影响。研究表明,在紫外吸光度554 nm处罗丹明B溶液的脱色率和总有机碳(TOC)去除率分别达到99%以上和 66.72%。

互联网空间数据预处理的主要目的是将非结构化、半结构化的数据转化为结构化的数据,并去除数据中的冗余部分,因此包括结构化处理和去重处理两方面。

从前面对互联网空间数据的分类可以看出,互联网空间数据既可以是传统意义上的基础地理数据,也可以是空间轨迹数据和空间媒体数据等非传统形式的数据。互联网上基础地理数据的处理方法和传统意义上的地理数据处理方法相同,故此不再赘述,这里主要介绍如何将空间轨迹数据或空间媒体数据转换为基础地理数据的格式(例如shape格式)。互联网空间媒体数据中,部分数据是以“.csv”格式存储的,下面以在开源GIS软件QGIS中“.csv”向“.shp”格式转换为例,介绍互联网空间数据格式转换的过程。

互联网空间数据的结构化是将从互联网上获取到的半结构化或非结构化数据处理成结构化数据的过程,它实际上是伴随着数据获取的过程同步进行的。在数据获取过程中,通过事先分析数据源信息,定义数据结构,然后完成数据的结构化处理。虽然不同的数据源网站上数据的存在形式和结构不同,导致数据预处理的具体方法有所差别,但是其内容一般都包括网站结构特点分析、数据结构定义、数据获取和结构化存储等方面。

图2 基于空间敏感爬虫的互联网空间数据获取流程

数据冗余是互联网空间数据面临的一个主要质量问题,通过上述获取手段得到的所有互联网空间数据都会存在数据冗余问题。例如对于微博、Twitter等社交网络平台以及Flickr等图片分享网站,由于网络状况的原因或者商业宣传的目的,同一个用户在同一个地方同时签到多次或者同时多次上传同一个地点的图片,会产生重复的位置签到数据,导致整个网站平台上存在大量的冗余数据。大量的数据冗余会降低数据的实用价值,而对这些数据进行去重处理,主要原理是在完成数据的结构化处理和存储后,根据数据的唯一标识(例如用户ID、图片ID等)对所有数据中的重复记录项进行删除,只保留其中的单一项。

2.3.2 数据格式转换

此时此刻才是这个家族最为荣耀的时刻,因为刚刚诞生不久的991.2代保时捷911 GT3 RS拥有更快的最高车速和更强的输出表现—312公里/小时和520马力。在200公里/小时的状态下,它车身上的空气动力学套件能够提供144公斤的下压力,而在这些积极因素的帮助下,它所创造的是纽博格林北环赛道单圈用时7分05秒的纪录!虽然它的车头和车尾仍旧为车牌留出了空间,但实际上它只应该属于赛道。

打开QGIS软件(本示例所用版本为QGIS 2.10.1-Pisa),在左侧工具栏选择“添加文本数据图层”,在弹出的“从分隔文本文件创建一个图层”的对话框中,“文件名称”选择本地CSV数据文件, “图层名称”中可设置和更改图层名,“编码”处设置数据文件的编码格式,“文件格式”选择“CSV格式(使用逗号分隔)”,“几何图形定义”根据该数据文件的几何形状进行选择(缺省值为“点坐标”),设置“横坐标”和“纵坐标”。

针对以往教师在授课中,主要依赖于教材的情况,通过科学研究进展进课堂,科学研究成果进大学生教育讲座,有利于更新教育观念,督促教师时刻关注本学科研究前沿,及时更新知识体系,言传身教,激发学生不断学习,培养医学生具备分析问题和解决问题的能力,以及发现问题和提出问题的能力。

点击“确定”,在弹出的“坐标参考系选择器”对话框中设置数据的坐标参考系,例如“WGS 84”。点击“确定”,即可生成相应的矢量图层。然后在图层管理器中右键点击刚生成的图层,选择“另存为”,弹出“矢量图层另存为”对话框,在“格式”中选择“ESRI Shape文件”,在此对话框的“另存为”中选择要存放的路径并对数据文件进行命名。然后点击“确定”,即可在设置的路径下生成所需的ShapeFile格式的数据文件。

2.3.3 坐标系统转换

空间数据是专题地图编制与更新的核心元素,而所有的空间数据都是基于一定的坐标系统的。在专题地图数据处理过程中,坐标系和投影的概念是必不可少的,所有空间数据在专题地图上可视化的结果都是基于一定的坐标参考系和坐标投影生成的。我国的地理坐标系从建国初到现在共经历了1954北京坐标系、1980西安坐标系、WGS-84坐标系和国家2000坐标系等;我国目前使用最为广泛的坐标投影则是高斯-克吕格(Gauss-Kruger)投影[12]。随着专题地图应用的推广,不同行业和领域可能需要不同坐标系统下的地理空间数据,这就涉及到空间数据的坐标系统转换问题。

深夜,我在寒冷的小镇上借宿歇息,曲折幽深的小巷里传来一个妇女凄凉的叫喊声:日偶啊——日偶啊——我心里一惊,竖起耳朵谛听,捕捉那若有若无的叫卖声。那声音断断续续,好像秋虫临终的哀鸣,令人心生无限悲凉。我不明白这是什么意思。难道会是一个年老色衰的妓女在叫卖吗?世上怎么会有这种事!刹那间,我竟不自觉地联想到了白丽筠。终于拗不过好奇心,我披上大衣下床,循着声音找去。沿着狭窄的小巷,走过光滑的石板路,嗅着两壁青苔霉斑的气味,在一座高耸的青砖马头墙下,我看见了那个拥着一个竹木筒叫卖的妇人。果然是一个年老色衰的女人,她掀开竹木筒上盖着的白毛巾,抽开半块屉板,下面是煮熟的热藕。原来是一个卖热藕的妇女……

坐标系统转换是为了实现空间数据的统一化,只有在统一的坐标基准下才能对数据进行后续的分析。GIS软件是进行坐标系统转换的有力工具,而目前大部分GIS系统都是以图层的形式来存储数据的,因此在进行坐标转换时,也需要按照数据图层的形式,逐个图层进行坐标系统转换。

新增的第3.3.1节中指出,⑬ 《Guidelines for Examination in the EPO》,载https://www.epo.org/law-practice/legal-texts/html/guidelines/e/index.htm,最后访问日期:2018年10月5日。人工智能和机器学习是基于分类、聚类、回归和降维的计算模型和算法(例如神经网络、遗传算法、支持向量机等)。不管它们是否可以基于训练数据进行“训练”,这些计算模型和算法本身属于抽象的数学性质,因此G-II部分和第3.3节中的一般性规定同样适用于此类计算模型和算法。

3 结束语

互联网空间数据是大数据时代下专题地图编制与更新的数据源的有益补充。开展面向专题地图编制与更新的互联网空间数据获取与处理研究,可以有效地整合互联网上存在的海量空间信息资源,为专题地图,尤其是境外专题地图的编制与更新提供重要的数据保障。目前,互联网空间数据的获取与处理过程中主要存在两方面的问题,也是后面需要继续研究的方向:

(1)数据多源、更新速度快,导致数据获取能力不足。对不同的数据源,数据获取的方法通常也不相同。互联网上的空间数据来源是海量的,如何提升数据获取的能力和效率仍有待研究。一种可行的方案是利用目前的开源网络数据采集框架(如Nutch、Scrapy等),建立一个统一的数据获取框架,实现对互联网多源空间数据获取。

(2)数据非结构化问题,导致数据处理过程复杂化。互联网上很多数据的结构都超出了传统地理数据结构的范畴,增加了数据处理的难度。对此,一种可行的解决方法是对这些异构数据都进行结构化处理,然后对每一种数据再按照常规的数据处理过程进行处理。

参考文献

[1] 黄仁涛,庞小平,马晨燕.专题地图编制[M].湖北武汉:武汉大学出版社,2015.

[2] 王兴华,崔文宏.遥感影像在地图中的应用[J].北京测绘,2015,4:123-125.

[3] 陈军,陈晋,廖安平,等.全球地表覆盖遥感制图[M].北京:科学出版社,2016.

[4] 申艳琴,韩健健.LiDAR数据生成DEM滤波与插值方法选取研究[J].北京测绘,2017(1):106-109.

[5] 艾廷华.大数据驱动下的地图学发展[J].测绘地理信息,2016,41(2):1-7.

[6] 茅明睿.大数据在城市规划中的应用:来自北京市城市规划设计研究院的思考与实践[J].国际城市规划,2014,6:51-57.

[7] 杨飞.互联网位置数据获取与集成管理方法研究[D].河南郑州:中国人民解放军信息工程大学,2017.

[8] 数据堂[EB/OL].(2017-12-11)[2017-12-11].http://www.datatang.com/.

[9] 姚科.开放API:新浪微博的必经之路[J].互联网天地,2010(8):71-72.

[10] 新浪微博开放平台[EB/OL].(2017-12-11)[2017-12-11].http://open.weibo.com.

[11] 田董涛.微博客数据的获取与分析方法研究[D].北京:北京交通大学,2011.

[12] 董绍轩.GIS中常用坐标系的比较与转换[J].硅谷,2013(11):140-163.

曾爱萍
《北京测绘》 2018年第5期
《北京测绘》2018年第5期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号