更全的杂志信息网

多源通用数据标准管理平台的设计和应用

更新时间:2009-03-28

0 引 言

随着各行业的信息化进程急速推进,导致底层数据源多样且复杂、分散而异构。而目前海量的数据缺乏统一的标准,导致数据标准的共享性十分低下。单企业内部分系统由不同开发商开发都会导致数据标准的不统一,行业内更是没有统一的数据标准,数据标准的管理是实现新共享时代的必经之路。

现在国内外绝大多数的工具和管理方法都是针对单个企业、单个数据源或者单个行业的数据标准的管理。目前比较成熟的管理行业是金融行业,针对金融业的管理工具和方法相对较多[2],但是仍然缺少跨越多种数据源、面向各行各业通用的统一的数据标准管理工具和方法论。

本文提出完整的数据标准制定、管理、维护的理论体系,并采用模板采集或元数据采集双线采集模式,为使用者提供更丰富的选择。利用与元数据的交互提升数据采集的自动化程度,同时提供合理的数据标准全生命周期管理流程,使数据的共享程度大大增加[3]

与市场上现有的低风险属性的理财产品相比,短债基金优势明显。与货币基金相比,短债基金能够提供更有竞争力的收益率,能够代表短期债券的中债-综合财富(1年以下)指数自基日2001年12月31日以来及最近5年,年化收益率达4.06%,而2018年以来货币基金收益率持续降低,就连传统“旺季”年末时点的7日年化收益率平均值也仅有2.95%(截至12月24日)。相较银行理财产品,短债基金采取开放式运作,建仓期过后没有封闭周期,方便投资者随用随取,流动性更优。

1 数据标准管理理论体系

1.1 数据标准管理要素

数据标准化是对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准[4]。数据标准管理的基本要素包括:

(1) 词素。词素是数据标准管理理论体系中的最小组成元素,也是单词的过渡阶段,是尚未申请成为标准单词的备选单词,其余所有元素都由多个词素组合而成,通常由用语分割而来。

(2) 单词。词素申请成为标准单词后成为单词,也是数据标准管理要素的最小单位,与词素同级。将词素中含义模糊、重复、无用的个体剔除掉以后,剩余的词素经过申请即可成为单词。

(3) 用语。用语时业务系统中采集而来的最原始的个体,是多个单词按照一定的规则组合而成的,经过分割可以获得多个词素的个体。

(4) 域。域是单词的一部分特殊的可以表示实体特征和定义的个体。用语被分割为词素并申请成为单词后,该组单词中最后一个单词就是域,其余的单词都是普通单词。域区别于其他普通单词的属性在于数据类型和长度,用语的数据类型和长度应当遵从对应域的并保持一致。

1.2 数据标准管理流程

依据国内外现有的数据标准管理方法,可以归纳出通用的流程如图1所示。数据标准管理的流程可以分为四大部分,涵盖了四大管理要素在内,按照顺序分别是:标准化对象选定、单词标准化、域标准化、用语标准化[5]

1) 通用性。为保证通用性,应当在标准化过程中优先使用国际通用单词和用语,保证与国际标准不冲突;优先选用该行业内各企业和组织惯用的业务用语;在同等用语条件下应当优先选用国内语境惯用语;针对不同行业应当使用适当的专业用语;应当结合企业与外部机构合作的情况,考虑到外部合作方企业内部的标准情况,最大化双方数据标准重合点,便于数据的共享和调用。

  

图1 数据标准管理流程图

标准化对象选定主要是对若干企业底层系统进行范围的选定以及标准化原则的制定,并进行跨越多源底层数据源的采集。其次是对采集的数据进行单词的标准化,即按照采集的数据分类选取已有的数据标准单词词典作为基准,并进行词素分析,判断是否为域。对于普通的单词在与基准词典比对后,对于不存在的单词进行补全定义,包括补全逻辑名、英文名、注释等,并经过申请与审核的流程成为新的标准单词。对于判断为域的单词应当按照域词典制作流程进行标准,域标准的定义相较于单词定义需要额外增加数据类型与数据长度等内容。最后,对判断为用语的数据进行词素分割,分割后的内容与域词典和单词词典进行比对判断是否标准,对不标准的进行修改并申请成为新用语。在经过以上四步操作后,最终获得单词、域、用语三大词典,其中标准用语词典最为重要。

1.3 标准数据定义原则

首先,应当以学校为主体创设综合信息管理平台,以便依托该信息平台实现家校共育。同时,在该平台的建设过程之中,必须引入外部评价机制,改变以往的校内单一评价模式,依托现代通讯技术搭建家庭教育同学校教育之间的沟通桥梁。

数据标准化的过程核心在于如何定制数据标准,如何最大限度地符合行业标准的通用性和规范性,以及如何通过规范定义原则来最大程度优化数据的质量。因此数据标准的定义过程需要遵循一定的通用原则,这也是实现共享统一的必经之路。标准数据定义的原则应当包括通用性、实用性及适用性三大原则[6]

除了90号沥青,胜利炼油厂同时还生产防水沥青、70号道路沥青等其他牌号的沥青产品。为防止各种牌号的沥青互串影响专供沥青的质量,胜利炼油厂还安排专用管线输送、专罐储存,确保为冬奥会和北京新机场建设提供品质最优、完全达到甲方要求的沥青产品。

王钟陵《中国京剧史略论》[3]将中国京剧史划分为五个时期,按照时间的纵向发展描述了京剧的形成与上演情况,并用部分篇幅探讨了话剧对京剧的影响以及京剧小剧场的生存状况。结尾处对京剧的现状与未来前景进行了表述,作者认为京剧面临的困境也不会将它推向“死亡,”京剧会在很长的时期中不会被替代。

2) 实用性。为保证实用性,应当在标准化过程中对实际现行系统进行充分的调研,保证一切标准化工作都是基于现有系统而非理论上的可行性,且保证一切标准化工作在后续系统的持续改进中确实可用;在标准化过程中应当规避一切难以理解、语义模糊、存在歧义的用语成为标准用语;在选定成为标准用语的审核过程中,需要由审核专员审核用语,保证标准用语的直观可理解,避免出现需要猜测语义的用语。

3) 便利性。为保证实用性,应当在标准化过程中做好已有标准化成果的调研和采集,尽可能直接利用企业现有的运标准化规章制度、方法体系和成果物,因为上述是最适合于企业或组织现有系统运行环境的标准化原则。

2 主要技术原理

基于当前主流技术和框架,本平台的主要实现技术如下:

蒋介石不仅是教党员和民众照总理遗教去行,其自身也不例外。蒋介石在30年代对党义的阐释基本不脱这样的逻辑,即“总理知的功夫已经做到,剩下就是行的问题”。如此将意识形态的宣导落实在一个空洞浮泛的“力行”上,实际上大大削弱了党义超越现实的理想色彩,从而把主义从一种民众心向往之的内在驱动变为一种外在的带有强制性的规范。

(1) 从元数据导入。与元数据管理系统交互,可以直接从现有的元数据库中导入元数据作为原始的备选用语[10]

2) SSM框架。SSM是Spring+SpringMVC+Mybatis的缩写,是当前Web开发中常用的基础框架之一。第一部分是Spring,辅助开发人员集合各个层次,进行事务的托管和持久化工作。SpringMVC续写了Spring,将C、V、M分隔开,即隔离控制器、视图与业务三大模块[8]。Mybatis的存在避免了设置参数,跳过JDBC代码实现,仅通过配置文件的映射实现数据库的更新。

3) Extjs。Extjs是当前比较流行且效果丰富的Ajax框架,用于客户端Web应用程序界面的开发,适用于现在多数主流开发语言。Extjs有着良好的互动界面和异常处理机制,且对于跨浏览器处理有着极大的优势,因此在平台开发的实现上成为首选前端开发框架。

3 数据标准管理平台设计与实现

(4) 申请成为标准用语。对于分割的各个词素都是黑色的备选用语可以申请成为标准用语,进入待审核状态。

平台功能流程的设计符合完整的数据标准管理生命周期,全过程分为两条支路,一条起源于元数据采集,另一条起源于Excel模板采集。在用Excel模板采集的过程中,先进行词素分割,以红黑颜色作为验证通过与否的标识,若标红则需要申请成为新的标准用语。申请时需要先验证是否已经在标准词典中存在,验证后自动将验证反馈信息填入备注栏中,由审核专员手动点击通过或者不通过,申请者可以在申请页面刷新查看。元数据采集的支路与上述流程类似,只在采集过后增加补全信息的过程。功能流程设计如图2所示。

  

图2 功能流程设计图

李树化(1901—1991),祖籍广东梅县人,出生于泰国北柳的一个华侨家庭。1919年到法国勤工俭学,1921年入里昂国立音乐院学习钢琴,1925年毕业后回国,在北京“艺专”和北京师范学校艺术科教授钢琴,是老志诚的钢琴老师。1928年,他和同乡兼挚友、画家林风眠一起到杭州,参与组建杭州“国立”艺术院的活动。1930年,艺术院改为杭州艺术专门学校,李树化任教授和音乐系主任。这时他曾教过洪士銈、张权、莫桂新等人。②

3.1.1 采集信息管理

1) IKAnalyzer。IK Analyzer是基于java语言开发的轻量级的中文分词工具包,是结合词典分词和文法分析算法的中文分词组件[7]。它在平台中主要用于词素分割,目前最新版的IK Analyze已经独立的作为了单独完善的组件面向java使用,由于该组件可以实现160万字/秒(3 000 KB/s)的效率,因此在追求时效的情况下适合使用。目前的平台中只单独应用到了中文分词功能,而IK Analyzer还支持包含英文字母、数字、韩文、日文在内的多语言的分词功能,并支持多语言混合分词。它采用了多子处理器分析模式,实现了简单的分词歧义排除算法,采用了特有的正向迭代最细粒度切分算法[8],支持细粒度和智能分词两种切分模式[9]

湖北省汽车零部件产业存在规模较小、分布较散、内部竞争等问题,应加快产业并购与整合,将产业做大做强。一是在产业的地域分布方面做好规划。二是发展错位竞争。三是加强产业的纵向与横向整合。四是对产业链优胜劣汰并加强产业龙头培育。

(2) 从Excel文件中导入。对于没有整理完善的Excel文件中,往往只有用语名,可以从采集信息管理模块导入后手动选择需要申请成为标准用语的部分。

3.1.2 用语管理

(1) 从Excel文件导入。从整理完整的文件中直接导入成为备选用语。

何泽皱了皱眉头,不露声色地把两条烟放在李站长办公桌下的抽屉里,酷爱烟丝的李站长隐约看见白袋子里面的大红色,知道是国烟“大中华”,眼光一阵发亮。为了不让何泽看出来,那光亮闪烁一下就消失了。李站长忙说,何兄,无功不受禄啊。何泽说,小意思,拜访老朋友总不能空着手,带着一张嘴来吃你的吧?

在文中,甲野藤尾和小野清三初次对话种,作为女性的藤尾也表达了强烈的本位意识。这种强烈的意识不仅存在于与异性的对话中,而且也体现在与同性系子的交流中。在第六章藤尾和宗近丝子的对话中,形容“藤尾和丝子在六层房间里针锋相对”。并且,将藤尾隐喻成尖锐的针,具有现代女性气质的藤尾在对话中也占据主导地位。

(2) 从采集信息导入。从采集信息管理模块中的筛选出来的备选用语导入后,需要在本模块进行信息补全。

尽管表2所列火灾数据还很不全面,但从中也可以看到:(1)目前保温火灾所造成的人员伤亡明显减少;(2)彩钢板使用阶段的火灾现象较为突出;(3)外保温施工阶段火灾仍然占比较高;(4)外保温使用阶段的火灾已逐渐显现。

(3) 词素分割。将已经是信息完整的备选用语选中进行词素分割,后台会自动验证各词素是否已经在标准单词词典中存在,若存在则为黑色,否则标红,对红色的可以申请成为新的标准单词。

3.1 功能流程设计

此平台系统功能统分为七个模块,具体如下:

3.1.3 标准用语审核

复合齿轮装置由动力分配行星齿轮机构和电动机减速行星齿轮机构等组成。通过采用2套行星齿轮机构的齿圈和中间轴主动齿轮及驻车锁止齿轮做成一体的复合齿轮,使复合齿轮装置的结构更为紧凑和轻量化。动力分配行星齿轮机构的太阳齿轮连接至MG1、行星架连接至发动机、齿圈位于复合齿轮上。电动机减速行星齿轮机构的太阳齿轮连接至MG2、齿圈位于复合齿轮上、行星架固定至传动桥外壳(图3)。

(1) 验证。待审核用语需要验证是否已在标准用语中存在,并再次验证是否每个词素都是标准单词,验证结果会以备注的形式填充。

(2) 通过/不通过。依据验证结果手动选择。通过的单词存储入标准用语库,不通过的用语会连带驳回原因反馈会用语管理页面。

3.1.4 单词管理

(1) 单词定义补全。对于申请成为标准单词的个体需要将短语名、物理意义、物理名、同义词等信息补全然后方可提交申请。

(2) 申请成为标准单词。选中完整的备选单词进行申请,申请的单词会转入待审核状态。

3.1.5 标准单词审核

(1) 验证。待审核单词需要验证是否已在标准词典中存在,验证结果会以备注的形式填充。

(2) 通过/不通过。依据验证结果手动选择。通过的单词存储入标准单词库,不通过的单词会连带驳回原因反馈回单词管理页面。

是的,它只是在分散敌人的注意力,因为此刻,第三头土狼已悄无声息地接近了女子的身后,猛地跃起,如饿虎扑食,朝着她的后背扑击。

3.1.6 标准体系管理

对于标准分类需要一个单独的模块进行管理,标准体系包括行业、企业、公用/专用等分类标准。

3.1.7 标准数据查询

通过对短语名、物理名、英文名、同义词、中文名、备注等多种条件的筛选,并输入关键词和标准分类,进行全局模糊查询。

3.2 架构设计

多源通用数据标准管理平台系统架构设计如图3所示。

  

图3 系统架构图

技术架构分为五个层面,分别是数据源层、数据采集层、数据存储和管理层、应用服务层和门户管理与用户层[11]。其中数据源层主要包括各个数据来源,分别来源于不同的层面,包括业务系统、外部数据、手工补录三个来源。从这三个来源中,我们主要由两条途径可以采集信息,一条是直接从元数据管理系统各种导入现有的元数据作为备选标准,另一条途径是通过业务人员手工整理以Excel模板的形式采集。然后进入到存储和管理层,此处的存储主要是基于DBMS存储,并合理进行标准的分类管理,在此层主要涵盖了标准分类信息。应用服务层基于Web服务器和内部服务器,将标准数据检索信息和审批状态信息等同步更新到平台中,提供便捷友好的应用服务[12]。最后通过门户管理与用户层将包含安全认证、访问控制、帮助文档在内的多种服务部署在门户服务器上,便于统一把控访问数据的角色权限信息,并对用户辅以安全访问的帮助。

The same steps conducted on the WC,and the keyword list is as follows.

3.3 平台效果展示

  

图4 excel模板导入用语页面

  

图5 数据标准检索

  

图6 元数据导入用语页面

  

图7 标准用语词典

4 应用案例及分析

在金融行业中数据的共享性和精确性要求较高,而国内的证券金融公司由于数据治理的概念发展较晚,因此缺乏数据标准统一的意识。2017年,上海计算机软件技术开发中心将数据标准管理平台应用于某大型证券公司的合作中,通过由该公司按照固定的Excel模板进行备选标准数据的采集,并依据业务经验进行相应信息的补全。利用本平台将采集的超过400张的Excel表单后台调度自动导入系统中,由该公司的业务人员和技术人员共同合作在本平台上完成数据信息补全,并申请成为数据标准。经过该公司业务专家和技术部门负责人在平台上在线审核后,形成超过4 000条数据的标准词典,同时实现了利用本平台对这4 000余条数据的全局检索,为该公司日后的新系统的开发工作提供了完整的参考体系,也为同行业的数据标准的制定起到了一定的参考作用。

5 结 语

数据共享是新时代行业发展的必经之路,虽然目前大多数企业的数据标准尚未形成,但是统一数据标准、提升数据的共享能力已成为大数据时代数据管理能力提升的不可回避的问题。多源通用数据标准管理平台旨在帮助尚未开展数据治理的企业实现治理的根基,即实现数据的标准化建设。这将为后续的数据质量、数据安全等一系列数据治理的工作打下良好的基础,同时也为新的业务系统的开发和扩展提供了统一的入口和模板规范,对于提高数据共享能力意义非凡。本文通过对数据标准管理的理论体系和技术原理进行了分析,开发了多源通用数据标准管理工具,通过提供统一的管理方法和流程管控,利用分词技术和表单技术,使得用户可以与传统人工梳理工作相结合,大大提高了数据标准制定的规范性和合理性,使标准制定工作从线下转为线上,从钉在墙上的规章制度转化为切实可查的标准词典。对各行业的数据标准管理打开了通用的通道,并为同类产品的设计和实现提供了借鉴。

参考文献

[1] 朱红磊.基于节能降耗系统平台的数据处理中间件的研究[D].河南理工大学,2010.

[2] 陈恒有.中国金融业行政管理制度研究[D].首都经济贸易大学,2012.

[3] 蒋东兴,郭大勇,罗念龙,等.清华大学新一代数字校园建设规划与实践[J].厦门大学学报(自然科学版),2007,81(S2):173-178.

[4] 白丽锐,杨友朋,王春新.数据标准化在电力物联网综合业务平台的应用[J].物联网技术,2013,3(8):41-45.

[5] 万文琪.装饰工程施工工艺管理流程标准化研究及其设计[D].东南大学,2014.

[6] 郭曙纶.汉语语料库应用教程[M].上海:上海交通大学出版社,2013.

[7] 朱潜,吴辰铌,朱志良,等.Hadoop云平台下Nutch中文分词的研究与实现[J].小型微型计算机系统,2013,34(12):2772-2776.

[8] 彭婧.一种用户交互的智能答疑系统的设计与实现[D].湖南大学,2012.

[9] 黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012,28(12):246-247.

[10] 朱丽娟.基于空间数据集成共享技术的土地勘测成果管理应用与研究[D].电子科技大学,2012.

[11] 黄小华.基于数据仓库的税务风险预警系统设计与实现[D].电子科技大学,2007.

[12] 贺艳伟.基于WebGIS的城镇地籍管理信息系统的研究与实现[D].河北工程大学,2010.

 
李雪凝,刘丰源,王凌,李明航
《计算机应用与软件》2018年第05期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号