更全的杂志信息网

海量异构科技文献信息资源的非结构化存储研究

更新时间:2009-03-28

0 引 言

云南省科学技术情报研究院已建成包括科技文献服务平台、科学数据共享平台、大型科学仪器数据库等多个支撑云南省科技创新和科技服务管理需要的科技信息资源综合服务平台和数据库。其中科技文献服务管理平台的数据量已经达到30 TB规模,包含与云南科技管理服务需要的8个相关子库,合计超过4亿条文献信息数据,且每年正在以2千多万条的速率增长。这些数据资源从来源形式、数据格式、数据类型、服务方式、数据管理方式等方面体现出极大的异构性、分散性以及海量性。这些特性导致了科技文献信息资源在服务过程中出现整合度不高、利用率低以及难以共享等缺点,特别是在大数据环境下,为异构数据资源的数据挖掘以及综合服务带来了巨大的影响。如何有效地对其进行描述和统一存储是科技文献信息资源服务应用的基础,也是当前必须解决的问题。

目前,这些数据大多以关系型数据库存储为主,随着数据量的增长,分库、分表的问题越来越显著,对数据管理的挑战也越来越严峻。因此,急需研究探索新型的异构科技文献信息资源的整合方法和存储模式。特别是大数据环境下,如何利用非结构化数据库来存储异构科技文献资源,满足它们分散、异构和海量等特性的需求也变得越来越重要。

非结构化数据库NoSQL[1-3]被认为是应对大数据应用挑战,解决大规模数据集合存储和管理的有效方案[4],已经得到了广泛应用,如文献[4-8]。国内外对科技文献领域内的NoSQL存储研究的文献较少,研究工作几乎都是在传统关系型数据库平台上,如文献[9, 10],对于异构科技文献资源的存储研究,江云等[11]论述了基于NoSQL的图书馆异构数据集成方式,提出了将异构数据进行包装对外提供统一的数据访问服务。温浩宇等[12]提出了基于NoSQL中间件模型的数据基础方法,能够有利于数字图书馆存储各种结构的数据。张红[13]阐述了国家图书馆在构建“文津搜索”系统服务平台时,结合各种NoSQL数据库,解决海量数据带来的数据采集、数据存储、数据处理和数据挖掘等问题。在异构科技文献整合方面,卫军朝对山西高校科技文献数据库进行了异构整合[14]。曹畋[15]通过大数据技术中的服务数据对象SDO(Service Data Objects)技术大大简化了异构数据统一访问的难题。王石榴等[16]提出利用语义Web解决科技期刊元数据异构共享问题的具体方案。

综合来看目前科技文献领域的主要研究工作集中在:1) 基于XML的文献信息资源整合,缺乏全面的异构数据模式分析及实现;2) NoSQL论述性及体系结构对比研究,缺乏具体针对性实例;3) 关系型数据库平台上的异构科技文献服务,缺乏大数据支持研究。

当前科技服务部门通常会构建并整合来自多个机构部门的科技数据信息资源,需要建立海量数据存储及管理服务系统,能够有效管理亿级别的文献数据,其中关键技术是如何对海量异构的科技文献数据进行描述以及如何存储这些描述数据。本文针对这两方面的问题,从非关系型数据库的数据模式角度开展如何描述异构的科技文献信息资源,以及研究如何有效存储这些描述数据。

1 科技文献信息资源相关概念

对于科技文献信息资源的各种类型就可以很方便地描述如下:

科技文献信息资源主要包括科技图书、科技期刊、科技报告、会议文献、专利文献、标准文献、学位论文、产品资料以及技术档案等,是网络环境下较为便捷的资源表现方式,从资源本身来看具有如下几方面的特征。1) 文献资源的规范性。文献资源的组织形式通常具有一定的规范性。例如文献的标题、摘要、关键字等。2) 资源之间的关联性。文献之间通常以某种规范的引用方式相互联系,例如,期刊论文的引用信息。3) 描述文献资源的元数据信息具有结构化特征,而文献本身一般属于非结构化数据。

1.2 科技文献元数据

截至2017年底,我国已有超过8万多家高新技术民企,产值超亿元的有1500多家[2],并且部分企业在新材料、电子、信息等众多领域技术水平和研发能力均达到或超过了军工标准,而目前能够参与装备科研生产的尚不足1%。进入军品科研生产市场的民营企业普遍经营规模较小,主要从事机械产品和低级别元器件制造,科技含量不高。

这样的场景下,用水质考核是无意义的。而用“入河污染物总量”考核则不同,如果该农场的种植业采用了减量施用化肥农药或养殖业釆用了排泄物资源化利用或生活垃圾及生活污水采用了无害化处理,那么在该小流域出口断面监测出来的“入河污染物总量”就会下降。反之,“入河污染物总量”就会上升。

3.1 多列族

2 科技文献信息资源抽象化描述

为了方便后续讨论,首先对科技文献进行抽象化描述:

雷雪英用记忆症状评估量表(memorial symptom assessment scale,MSAS)测量工具,采用便利抽样法调查发现,肝硬化患者各症状分量表与生活质量各维度呈负相关,相关系数在-0.86~-0.05,提示肝硬化患者的症状体验对其生活质量呈负面影响,即患者症状水平越高生活质量越低[6]。

定义科技文献信息数据资源为二元组S

S={M,C}

(1)

M为元数据描述信息,C为内容,其中M是由n个描述C的特征值f构成的集合:

M={f1,f2,…,fn}

(2)

可以把法规表示为:

 

(3)

为了便于表示,定义fref作为C的引用,加入到M特征集合中,用于描述C的位置信息。例如,文献的存储路径或者网络地址等。则文献类型ST的元数据最终用下式描述:

求助百度:意为道德败坏、品行低劣的、自身行为与社会相悖或违反人伦缺乏操守准则的人。此外,除用于辱骂和对他人的蔑视,也偶见形容一个人对社会或群体毫无贡献且拖后腿的情况。百度的解释重在道德品行,与人们的理解似也有距离。

Mst={f1,f2,…,fnfref}

(4)

在强调特征量顺序关系的时候,也可以表示成向量的形式:

该试验仅观察到向日葵开花期,因此,未进行产量的测试,药剂对向日葵产量的影响程度有待于进一步试验完成,优化施药技术,降低药剂成本。另外,应建立一套科学评价诱抗剂防控寄生杂草的方法,由于诱抗剂对寄生杂草不具有杀伤作用,因此,不应简单采用以往的统计寄生率、寄生程度和寄生强度的方法。

VMst=[f1,f2,…,fnfref]T

(5)

这样可以很方便地获得文献的位置:

Posref=Size(VMst)-1

1.1 科技文献信息资源特征

 

很显然,这种方式非常适合传统关系型数据库的关系模式存储。每一种类型可以对应一张关系型数据库的表,特征量对应于关系型数据库中的字段,所有的类型则对应于一个规范的数据库。这在异构的数据存储过程中带来了巨大的难度,因为不同数据库对于每一类型的f定义不同,它在数据库中的类型,长度存在很大的不同。所以造成了统一存储的困难性,并且对应动态扩展f较为困难,一旦表结构发生变化,不可避免地要修改相应的应用程序。为了克服这种不足,本文采用Schema-Free的非结构化数据模型来存储异构科技文献数据。下面以Cassandra非关系型数据库为例,研究存储异构科技文献信息资源的数据模式。

3.3 NoSQL数据适配器设计

3 科技文献的NoSQL数据模型分析

Cassandra[17]是一个开源的面向列的分布式非关系型数据库,也可以把它看成4维的哈希结构构成的Key/Value数据模式(见图1)。这种数据模式不需要像数据库一样预先设计Schema,可以非常方便地随时进行模式更改、增加或者删除字段,同时该数据库具备高可用、高扩展的特点,研究将基于Cassandra构建异构科技文献信息资源的数据存储模型。

  

图1 Cassandra数据模型

Cassandra表中的每个列都归属于某个列族。列族由逻辑容器Keyspaces装载,每一个列族都被设计为一组数据关联或排,用户可以根据需求场景只保存所需数据,而不必拘泥于早前定义的表结构。通常我们用三种方式检索Cassandra表中的数据,分别为:指定单个行键查询、指定行键范围查询以及扫面(Scan)构成Cassandra表数据的四个核心基础是Column Family(简写为CF)、Column Key(简写为CK)、Keyspaces还有RowKey。其特点是:键空间是Cassandra的数据容器,列族和列关键字都可以动态增长,一个列族可能包括若干列关键字。行的标识用RowKey表示。式(1)的关系型模型可以通过如下公式描述,表关系ψs个列族构成:

ψ={CFi|0≤is}

(6)

在对查询性能要求不高的应用中,使用多列族的数据模型会额外增加数据查询所需要的性能开销。因此,大多数情况下,基于Cassandra的数据模型的创建同样会考虑采用单列族的形式。使用单列族的方式如表2所示。

CFij={CKj|0≤jk}

(7)

经过对现代机械制造工艺的特点以及发展的探究可知,现代机械制造技术的高低是我国科技水平发展一定程度的重要标志,是我国综合国力得到巨大提升的表现。因此,在现代机械制造过程中遇到市场、技术等等问题时,应该抓住机遇,积极应对问题,分析现代机械制造工艺的特点从而来解决问题,使得现代机械制造工艺的得到更好的发展。

为了方便理解,列族可以想象成嵌套并排序的map,map可以进行高效查询,同时排序的特性可以进行高效的Column扫描。在Cassandra中,可以使用RowKey和CK进行高效查询和范围扫描。式的关系如表1所示。表1是一种理论上的表示,列族可以无限制动态增加。

 

表1 Cassandra多列族科技文献信息资源存储

  

RowKeyCF1CK1_f1CK1_f2……CFlCKl_f1CKl_f2

3.2 单列族

通常来说,元数据的提取及辨识是提供资源检索的直接方式。元数据又称中介数据,主要用于描述数据的属性,为了进一步加强数据交互,提供更强的数据共享、管理和检索服务,目前国内外已经制定了一些通用性的元数据规范,例如Dublin Core、PICS、Web Collections等。国际标准(ISO)和国家标准(GB)均对不同类型的资源有不同的元数据规范准则。虽然科技文献的元数据具有相关的规范标准,但是各家机构所参照的元数据标准不一样,再加上自身的一些特色信息,导致了即便是基于元数据标准,但是依然会有差异性的存在。例如专家元数据包括:姓名、教育背景、最高学位、专业领域与研究方向、国内外学术或专业团体任职情况、院士、专家荣誉、专家特色等。而法规元数据包括:标题、发文文号、颁布部门、效力级别、效力代码、时效性、批准日期、签字日期、颁布日期、实施日期、失效日期等。

列族i包含的k个列,表示如下:

 

表2 Cassandra单列族科技文献信息资源存储

  

RowKeyCFCK1_f1CK1_f2…CKl_f1CKl_f2

这场改革遇到了各种阻力,但他也毫不退却。正是由于他的坚持,经过两年的整顿,顺丰的架构和各分公司的产权明晰起来。

本文就学风建设问题,对武汉商学院的学生展开了问卷调查。武汉商学院是2013年经教育部批准在原专科院校的基础上建立的一所普通本科院校,是湖北省第一批转型发展试点院校,即使近年来学校得到迅速发展,取得不少成就,似乎也没能转变部分学生的学习态度,即使学校层面推出不少教风学风建设措施,学习态度的两极分化问题依然存在。本人认为以武汉商学院为例展开研究,具有一定的代表性。

目前,云南省科学技术情报研究院的科技文献资源多数基于传统的关系型数据库实现例如SQLServer和MySQL。为了能够利用大数据处理工具,如Hadoop、Spark等,需要把这些信息资源转移到NoSQL上,本文设计了如下传统SQL数据库到NoSQL数据库的数据转换框架,如图2所示。

初钻时,以低挡慢速钻进,使护筒刃脚处形成坚固的泥皮护壁;钻至护筒刃脚下2~4 m,速度控制在每小时1.5 m左右,这样既能保护孔壁完好,又有利于保持循环泥浆钻渣含量基本稳定,使排渣顺畅、均匀。正常钻进时,合理调整钻进速度但不随意提动孔内钻具,并减小钻具的晃动。

  

图2 数据转换框架

该数据转换框架主要由两部分构成:数据传输模块和NoSQL适配器模块。其中NoSQL适配器主要包括:符号命名分析、视图分析、结构分析、类型转换、表关系分析以及类型检测等功能。

各功能作用介绍如下:符号命名分析用于对现有SQL资源库中的数据库名字、表名、字段名进行分析并做相应的转换以便于Cassandra进行处理;结构分析用于对SQL资源库中的数据库结构进行分析,统计数据库中有多少个表、视图以及字段从而可以根据这些分析对重复的字段进行预处理,以便于Cassandra处理重复的内容;视图分析与表结构分析作用类似,只是专门针对视图处理;表关系分析用于对SQL资源库中的表之间的关系进行处理;类型转换和类型检测,由于SQLServer和MySQL之间存在很多不一致的字段,例如类型和长度等,这就需要结合Cassandra支持的数据字段对其进行分析。

从流程上来看,可以通过NoSQL数据类型适配器预先执行图2中①,再通过数据传输方式,以每个库中每个表为单位,以CSV文件的方式进行导出,然后通过Cassandra提供的相关工具导入到NoSQL中,如图2中②。

4 实验与分析

实验数据来源于云南省科学技术情报研究院所提供的科技文献信息资源的元数据库,其中包括期刊、会议、电子书籍等资源,并分别抽取了其中1千万、5千万和1亿条记录用以进行实验,环境的构建使用表3的多列族数据模式。

在消防器材操作国家标准的基础上,结合训练科目内容和项目危险源辨识情况,制定详细的设备器材岗位标准作业流程,通过一段时期的流程应用完善后,组织队员集体学习,确保岗位标准作业流程制定合理、规范。中队开展岗前宣誓和每月升旗观礼话动,用仪式潜移默化的感化每名队员,提高队员的思想状态和精神状态。在日常执勤、重大会议、消防备勤时,以一种雷打不动的跨立姿势伫立在备勤岗位。每当有新队员加入,中队第一件事情就是组织新队员参观荣誉室,向新队员介绍各面锦旗来历,讲述重大火灾事故应急抢险救援经过,培养队员的集体荣誉感、使命感和责任感,进行优良传统教育。

 

表3 科技文献在NoSQL中的数据模式

  

RowKey期刊标题作者…发表日期……专家姓名教育背景…专业领域与研究方向……

所有的实验结果基于如下环境配置:5台曙光天阔620R 4 GB内存服务器,希捷500 GB 7 200转,SATA硬盘;其中4台安装 CentOS6.6操作系统,Cassandra 版本为3.9,由于Cassandra是多机环境。因此,实验把MySQL搭建为集群的形式,版本MySQL Cluster 7.5.6,机器数量与Cassandra相同,二者均采用默认配置。适配器基于Python2.7实现,操作系统为Windows Server 2008 R2,适配器通过OLEDB的方式分析SQLServer的情况如表4所示。

天线的带宽为3.1~12 GHz,但在3.3~3.8 GHz,5~6.1 GHz,7.9~8.8 GHz的频段内的回波损耗大于-10 dB,分别有效抑制了WiMAX系统,WLAN系统和ITU信号对于UWB系干扰,符合三陷波特性。天波回波损耗如图1所示。

 

表4 适配器数据导入性能

  

1千万5千万1亿数据容量5.19GB25.9GB51.9GBNoSQL适配器0.692s0.698s0.704s数据导入15.1min69.8min135min

由表中数据可以看到在不同数据量时候的数据容量以及数据导入时间,其中数据导入平均速度为11 700条/秒。NoSQL适配器在不同数据量的情况下,性能都在350 ms左右,与数据量相关性不大,原因在于NoSQL适配器在执行的时候不需要读取数据,只需要读取关系型数据库的数据库结构元数据和非关系型数据库的数据结构信息。因此,即使数据量很大,对数据库表结构的元数据信息的影响也会较小。

数据导入完成后,接下来针对科技文献信息资源检索从不同角度对两类数据库进行的评估,如图3、图4、图5所示。

  

(a)

  

(b)图3 数据量和查询维度不同时,科技文献信息资源的检索性能对比

  

(a)

  

(b)图4 节点数和数据量不同时,科技文献信息资源的检索性能对比

  

(a)

  

(b)图5 查询维度和节点数不同时,科技文献信息资源的检索性能对比

图3(a)根据节点数相同的情况,测试了两种数据库在如表3存储科技文献信息资源时,数据量不同的情况下性能的差异,从图中可以看到Cassandra的检索性能要优于MySQL。从图4可以看出数据量和节点数均可导致数据库的性能发生变化,例如在(b)中,在Cassandra中检索科技文献信息比在MySQL中检索科技文献信息的响应时间缩短了61%。从图5(b)则可以看出,当数据量为5千万时,节点数越多,Cassandra的数据检索性能越优于MySQL。

通过本文设计的数据模式实验来看,在集群节点数和查询维度相同的情况下,在两类数据库中检索科技文献信息资源都会随数据量的增多而使查询速度变慢。但Cassandra数据库的检索性能所受的影响要小于MySQL数据库,如图3(a)和图4(b)所示。因为Cassandra分别建立索引树节点,每个节点分摊压力,所以相对影响较小。MySQL数据库采用共享内存的方式,索引较大,且多个进程同时增加数据,对索引形成巨大压力,因此会导致其性能显著下降。另外,Cassandra放弃强一致性,退而追求最终一致性,也是使其性能优异的主要原因。

在数据量和查询维度相同的情况下,随着集群节点数的增加,Cassandra检索科技文献信息资源需要的性能开销明显少于MySQL数据库,如图4(a)和图5(b)所示。这一性能优势来源于它的高水平扩展性。Cassandra可以随时停用和启用某个节点,相比于需要进行负载均衡的MySQL来说,只需要很少的性能开销就可以做到系统的复制、新增等[18]

结合如上几组实验结果,可以看出非关系型数据库在处理科技文献信息资源时的性能要高于关系型数据库,验证了用非关系型数据库存储科技文献信息资源的可行性和高效性。

5 结 语

本文研究异构环境下科技文献信息资源的描述模式及如何利用非关系型数据存储这些描述的实现方式。首先对于异构科技文献信息资源存储中的问题进行了分析,并重点阐述了非结构化数据存储模式的应用以及原理,为科技文献信息资源的非结构化存储提供了理论依据。然后设计了关系型数据库的NoSQL适配器,能够方便地融合现有存量关系型数据信息资源。最后基于真实的数据进行实验,对比了非关系型数据库和关系型数据库在存储具有分散、异构、动态、海量等特性的科技文献数据时的性能差异,验证了NoSQL适配器设计的合理性以及非关系型数据库在科

技文献领域应用中的高效性及可行性,所使用的研究方案能够满足当前科技文献数据资源异构、分散及海量等特性需要。研究方法可以为其他领域的异构资源整合及应用提供借鉴和参考。

参考文献

[1] 申德荣,于戈,王习特,等.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013(8):1786-1803.

[2] Stonebraker M. SQL databases v. NoSQL databases[J]. Communications of the Acm, 2010,53(4):10-11.

[3] Cattell Rick. Scalable SQL and NoSQL data stores[J]. Acm Sigmod Record,2010, 39(4):12-27.

[4] Han M. The application of NoSQL database in Air Quality Monitoring[J]. Journal of Composite Materials,2015,49(6):685-697.

[5] 郭星. 基于Mongodb的分布式图片存储系统的研究及实现[D]. 北京:中国科学院大学,2015.

[6] 侯朋朋. 一种高性能NoSQL存储系统的设计与实现[D]. 北京:中国科学院大学,2013.

[7] 田野,袁博,李廷力. 物联网海量异构数据存储与共享策略研究[J]. 电子学报,2016, 44(2):247-257.

[8] 王智慧. 基于NoSQL的智能电网数据云存储研究及应用[D]. 河北:华北电力大学,2015.

[9] 王兰成. 科技档案异构数据整合及其检索的研究[J]. 中国科技资源导刊,2009,41(5):36-41.

[10] 王文哲. 多源异构科技共享资源管理系统的研究与实现 [D]. 湖北:武汉理工大学,2012.

[11] 江云,李凤兰. 大数据在我国图书馆的应用及推进研究 [J]. 图书馆工作与研究,2014(6):35-41.

[12] 温浩宇,李京京. 大数据时代的数字图书馆异构数据集成研究[J]. 情报杂志,2013(9):138-141.

[13] 张红. 基于大数据技术的资源发现平台构建——以国家图书馆“文津搜索”系统为例[J]. 数字图书馆论坛,2016 (1):61-67.

[14] 卫军朝. 山西高校科技文献平台异构数据整合研究[D]. 山西:山西大学,2009.

[15] 曹畋. 大数据环境下的图书馆异构数据统一访问与转化系统[J]. 图书馆理论与实践,2016(2):80-84.

[16] 王石榴, 谢文亮. 数字图书馆建设中科技期刊元数据异构共享研究[J]. 图书馆工作与研究,2015(2):53-56.

[17] Lakshman A,Malik P.Cassandra:a decentralized structured storage system[J]. Acm Sigops Operating Systems Review,2010,44(2):35-40.

[18] 胡超晔. 基于Cassandra数据库集群的高并发读写系统的分析和应用研究[D]. 上海交通大学,2013.

 
李鹏程,刘应波,王锋,文若瑾
《计算机应用与软件》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号