快捷分类

图书馆化学资源检索系统的架构思路

更新时间：2009-03-28

化学学科的研究和发展以及相关研究领域的实践应用，需要查阅和参考大量文献。随着科学技术的发展，化学知识的广度和深度都在不断扩大，文献资源数量也急剧增长，加之数字资源改变了传统信息资源依托的载体和存在方式，增加了相关主题化学文献查阅和分析的困难。因此，建立一套完善、科学、有效的化学文献检索系统，降低化学研究者与工作者的负担等，成为目前学术界亟待解决的课题。

采用SPSS 17.0统计学软件对数据进行处理，计量资料以“±s”表示，采用t检验；计数资料以百分数（%）表示，采用x2检验，以P＜0.05为差异有统计学意义。

一、图书馆化学资源检索系统面临的困境

传统的化学文献检索系统主要以期刊文献资源为数据总库，以主题词表、索引式等不同的主题系统分类，进行特定化学领域知识的查找与分析。然而随着时代发展和相关文献的大量增加，化学科研工作者不能快速筛选出自己所需文献，阻碍了查找资料的效率和研究进程。

目前，化学资源检索系统主要从文献内容定义化学数据分析，依据文献外部显著特征加以解析，辅以数字、符号或多重组合、片语等，对所记录文献主题进行标引入库，以此作为数据查询的检索入口。面临的困境主要有以下两点：一是文献构成的丰富与检索数据的对接不通畅。文献资源的构成种类异常丰富，除去传统的纸质图书、期刊等，电子资源的比例也在急速增长，包括电子图书、期刊、网络资源等。因开放数据的使用和发布，使资源的总量变得不可估量。而在检索数据的纳入上，因图书馆存在经费、版权、异构数据的技术处理等问题，大部分资源还未进入到图书馆的检索数据中。二是文献检索需求的广泛与检索入口的限制。文献检索者在面对资源检索时，因检索目的、个人习惯、知识构成等因素影响，表现出资源检索的多样化需求，而检索入口及后台对应的数据搜索方式均存在一定局限，不能满足文献查找者的检索需求。

二、图书馆化学资源检索系统构建思路

（一）立足宏观，重视对大数据的利用和挖掘

2008年，《自然》（Nature）杂志第一次出版了关于“Bigdata”专刊，“大数据”概念开始出现，并被广泛关注。期间，最有影响力的当属2011年麦肯锡公司发布的《Big data：the next frontier for innova⁃tion,competition,and productivity》（《大数据：下一个前沿、竞争力、创新力和生产力》）的调研报告。短短几年之间，大数据的影响扩展到各个行业。麦肯锡报告指出：“进行大数据研究将会为社会带来巨大的价值”。2012年3月29日，美国奥巴马政府在其公布的“大数据研发计划”（Big Data Research and Development Initiative）中，明确将该研发计划的目标确定为“为了提高以及改善从海量和复杂的数据中获取知识的能力，加快美国在科学和工程领域研究的步伐，以此为基础巩固国家安全，转变现有的教学和学习方式”，美国政府为该计划投入2亿美元。由此可见，大数据的影响力度。［1］

集群文件系统的构建原理可以表述为：将一个大数据文件分解成若干子块，存储于块服务器，每个块存储对应为相应的元数据，元数据存储于主服务器，以此完成一个大数据的存储过程。元数据在主服务器中的保存类型分为3种：一是文件和块的命名空间；二是块的映射文件；三是每个块复本的位置。文件和块的命名空间元数据用于维护文件系统的命名空间，通过命名空间的查询来查找和定位指定文件和目录的路径等属性信息，从而找到该路径所对应的相应内容。其中，关于文件存储位置信息的元数据，能够准确定位数据块位置的偏移量。在信息检索中，由于文件信息描述及存储信息的描述存在不一致等错误，常会误导搜索引擎执行检索工作，进而影响信息检索效果。因此，元数据的准确描述相当重要。

对于“大数据”的定义，目前还没有形成统一的概念。学术界普遍认为，大数据根据其现象表征和特点，可以用五个“V”字词语来形容（IBM提出）：Volume，大量，主要形容数据体量巨大，一般可达TB级，甚至PB级。Variety，多样，指数据种类繁多，而且来源复杂、格式多样。在数据的构成上，除了结构化数据，还有半结构化和非结构化数据。Value，低价值密度，即大数据所包含的信息价值与其存在数量呈现低价值密度。一方面，在海量数据中，有价值的信息比例较低，大量无用信息充斥其中；另一方面，合理运用大数据，可以以较低成本挖掘到可靠信息，从而获得较高价值，数据的可挖掘性较高。Velocity，速度，在大数据概念中，数据的产生量和增长量的速度很快，同时，数据的处理速度也很快。Veracity，真实性，主要指大数据的质量。大量数据的真实性需要判断。

云技术是一种分布式计算方法，是在广域网或局域网内将硬件、软件等系统资源统一在一起，进行数据存储、计算、共享等的一种技术。Google公司在其云技术方案中，提出分布式文件系统（GFS）、分布式数据库（BigTable）、批处理技术（MapReduce）以及开源实现平台（Hadoop）。其中，分布式文件系统是一种基于分布式集群的大型分布式处理系统，利用数据分块、追加更新等方式实现海量数据的高效存储，为批处理技术计算框架提供低层数据存储和数据可靠性保障。分布式数据库通过一个多维稀疏排序表以及多个服务器实现对大数据的分布管理，是云技术的核心，即通过批处理实现对大数据的分析。批处理技术主要由映射和归约两部分组成［2］。大数据时代，与云技术的产生有很大关联，脱离云计算的超计算能力，大数据将无法分析和利用。相比较传统数据保存办法，如此海量和复杂的信息，处理难度可想而知，除无法在时间上及时完成外，其不可预估的成本也是不可回避的事实。而在云技术的支持下，分布式文件系统已经成为大数据的传输中心。目前，云技术中文件系统的存储技术主要包括Google的GFS和Hadoop的HDFS。

大数据的出现影响着各行各业的发展，其带来的社会效应及“以小带大”的价值效应得到了社会各界的一致关注和认同。如，在商业界，大数据的关联和分析可以反映出消费行为的模式变迁和发展趋势，从而寻找新的商机，做出优化策略及战略调整，以纠正或改变现有的商业模式，获取更大的经济效益；在医学研究及临床实践领域，大数据的采集和分析可以为一些疑难病症的诊断、治疗、研发等提供可靠的数据分析资料；在图书馆领域，大数据蕴藏信息丰富，且处理数据速度快，被广泛应用于文献检索系统，用来扩充检索信息量，加快文献检索速度，提高文献检索效率。

（二）研判技术的适用性推进大数据相关机制的建设进度

三是通过稳妥发展统一战线民主构建共同体。统一战线民主是中国特色社会主义民主的重要特色。统一战线民主在本质上是解决中国共产党领导下党外力量的民主权利和民主作用问题，是人民民主专政的题中应有之意，也是满足人民民主政治需求的时代要求。一个持久稳定、富有活力且具有效率的共同体，本身就是坚持民主与集中相统一的共同体。中国共产党领导的统一战线充分发扬民主，在国家政权中保障党外人士参政议政，在社会主义协商民主各种渠道中开展协商，不断践行民主的协商真谛。新时代，统一战线应充分落实《中国共产党统一战线工作条例（试行）》要求，保证党外人士参与国家政权和发挥作用，进一步构建既有秩序又有活力的中国特色政治共同体。

管道连接时，连接件两端要支设稳定，并试验活动机架运行平稳，方可进行操作。尤其是在坡道地段，严格注意接口对接质量。大口径阀门、管件下必须设置支墩，与管道连接时确保轴线一致，待接法兰面平行且间隙均匀。阀门安装应在一天温度较低时进行。

（三）基于需求分析确立系统架构的模块和因素

随着我国信息技术的快速发展，国内对于化学资源数据的分析系统研究取得了长足发展。近年来，关于化学数据分析研究的课题逐年增长，为化学信息资源检索和分析做了大量基础工作。ChemDB Portal化学深层网检索引擎是中科院高性能计算与化学信息学课题组建立的网络化学化工信息资源检索平台，是利用深层网检索技术实现在线检索多来源数据库的化学检索引擎，可实现一次查询请求、自动检索多个专业库、统一返回结果等检索过程。目前，ChemDB Portal检索平台索引有约50万个化合物、超过100万种产品信息，检索过程中，可同时在线检索十几个化学数据库的数据、MSDS等数据源。在此基础上，逐步衍生出更多的数据服务，如建立相应的动态链接、建立原始实验数据资源库、构建基于化学品在线服务等功能［3～6］。化学信息管理系统包括两大功能：化学结构检索及文字检索，具有便于数据库维护、图形存储和中文处理等特点［7］。相类似的还有名为MORT（molecular objects and relevant templates）的函数库，能够作为计算生物学和计算机辅助药物设计（CADD）等相关软件的开发基础［8］。但总体来看，国内对化学数据分析系统的研究起步较晚，以致于国内化学数据分析系统整体研究成果水平仍较低，发展进程也相对滞后，而且少有相关人士进行化学数据检索系统的整体研究。

在对图书馆化学资源检索系统架构的过程中，现状研究和需求调研十分重要，应以此为基础确定系统架构的整体方向及模块确立。现阶段，可以把图书馆化学资源检索系统的模块拟定为4个：检索模块、数据处理模块、系统维护模块、统计分布模块，围绕模块建设架构整个资源检索系统（如，确立服务器端和客户端、联立化学文献数据库等）。

三、结语

随着文献资源数量的指数式增长，大数据分析系统研究已经成为文献检索系统的趋势，其系统架构所带来的检索效应、对相关学科的推动作用已经得到了学术界的广泛认同和关注。以化学资源检索系统架构为研究点，从检索策略、检索技术、检索环境等入手进行系统搭建，对推动化学研究检索效率及学科建设进程有重要影响。结合该研究的跨学科性、交叉性、技术支撑性等特点，研究进程仍需要更多的人付出努力，希望通过上述研究思路的呈列，对该领域研究提供有益帮助。

参考文献：

［1］刘言，蔡文生，邵学广.大数据与化学数据挖掘［J］.科学通报，2015（8）：694-703.

［2］陈近，文庭孝.基于云计算的图书馆大数据服务研究［J］.图书馆，2016（1）：52-56.

［3］Chu C M，Li X X，Guo L.Directed Query Engine Ap⁃plication in the Integrated Retrieval of Chemical Web Databases［J］.Comput Appl Chem，2005（22）：659－666.

［4］ZhuoLY，LiXX，GuoL.ChemicalDeepWebDataEx⁃tractionwithXML-basedTechnology（inChinese）［J］.Comput Appl Chem，2006（23）：1137－1141.

［5］袁小龙，李晓霞，郭力，等.开源软件在化学数据库分子结构检索中的应用［J］.计算机与应用化学，2008（25）：1143－1146.

［6］刘增才，李晓霞，袁小龙，等.基于SSH+ExtJS架构的化学数据知识框架管理［J］.计算机与应用化学，2008（25）：1147－1151.

［7］高蕾.基于大数据背景下高校图书馆电子信息资源建设与服务探究［J］.西部皮革，2017（12）：227.

［8］沈天翔，李丰，姚建华.CISOC-ChIMS：化学信息管理系统［J］.计算机与应用化学，2007（24）：130－132.

作者

张宇鹏

出处

《晋城职业技术学院学报》 2018年第03期

上一篇：我国图书馆用户驱动研究

下一篇：唐传奇中的婚姻与媒妁

《晋城职业技术学院学报》2018年第03期文献

山西晋城曹魏时期拴驴泉摩崖石刻新释作者：张恒

“中国梦”引领下的大学生理想信念教育路径研究作者：陈丽丽

高职学生创新创业中的自我定位分析作者：谢晓敏

读者信用积分制对高职学生阅读成长的激励作用——以晋城职业技术学院为例作者：常亮，王永革

新媒体环境下高职院校创新管理模式探索作者：陈华

职业教育精准扶贫路径探析——以滇西片区为例作者：刘娟

“一体两翼，三段六即”：利益攸关者视角下现代学徒制人才培养的路径选择——以江苏信息职业技术学院电子商务专业为例作者：王永春

计算机技术在档案管理中的应用作者：康琛笠

校企合作模式下高职院校学生党建工作研究作者：朱华西，杨雪菲

基于PDCA管理理论的高职院校教学质量诊改研究作者：刘润民，杨志强

香港职业训练局互动式教学法在内地高职《会计综合实训》课程中的应用作者：刘婷，余丽霞，郭珺

高职院校民间音乐教学的开展策略分析作者：周云辉

高职建筑工程类专业装配式建筑教学课程改革作者：刘建邦

英语学习策略培训与学业成绩的实验研究作者：白杨

情境教学法在高职院校管乐教学中的运用作者：张良

思想政治理论课“大班授课小班讨论”教学模式的思考作者：熊茉莉

翻转课堂在《市场营销》教学中的应用分析作者：杨艳

基于信息化课堂教学活动的定量有效性分析作者：陈艳茹，杨勃

基于微课的混合式教学模式在高职学生心理健康教育教学中的应用研究作者：欧阳叶

地方高校大学生一般自我效能感、人际关系困扰与校园归属感的关系研究作者：王雪玲

枣及酸枣无菌体系的建立作者：牛瑜菲，彭建营

我国图书馆用户驱动研究作者：刘净净，柴会明

图书馆化学资源检索系统的架构思路作者：张宇鹏

唐传奇中的婚姻与媒妁作者：杨楠

《春秋左传》时地类框式介词考察——以“自……至/及……”为例作者：韩雪

山西长城旅游资源评价与开发作者：宋丽丽

山西太谷方言中的“杀”字结构作者：胡璟涛

中国梦视域下我国幸福困境问题研究述评作者：王月琪

杂志信息网