快捷分类

基于AHP的大数据可用性及挖掘方案模型研究

更新时间：2009-03-28

0 引言

2015年国内印发了《促进大数据发展行动纲要》，提出要全面推进大数据的发展和应用，将中国建设成为数据强国。然而，大数据规模庞大(volume)、类型多样(variety)、生成迅速(velocity)和价值密度低(value)的特征[1]给数据的运用和分析带来了阻碍。在没有理论体系的支撑下，面对海量的数据时更是难以判断其可用性，也就无法有效地进行数据价值的提取。此时，所面对的将不再是大数据，而是“一堆数据”[2]，就好比坐拥金山却不知，失去了大数据的原有意义。

做好鱼沟、鱼凼开挖。鱼沟规格为宽0.8-1.5米，深0.6-0.8米；鱼凼宽4-5米，深0.6-1米。鱼凼应在埂边设置，靠近鸭圈，更有利于投饵，同时也方便鸭子下水，鱼沟与鱼凼相通至田间。

大数据的诸多特征使其难以琢磨，对此李建中[3-4]等指出，一个正确的大数据集合至少应该满足5个性质：精准性、实效性、完整性、实体同一性和一致性，并在此基础上提出了大数据可用性研究的方向和问题。诸如：大数据可用性的描述、影响因素的分析、可用性的量化评估、挖掘模型的评价研究等。围绕这些关键问题，文中结合AHP方法建立大数据可用性及挖掘方案的评估模型，通过定量的比较分析讨论大数据的可用性及其有效挖掘方案。

在资源下乡背景下，为了扭转农村基层党组织凝聚力弱化的局面，既需要推进新时代乡村关系的梳理与重构，又需要加强农村基层党组织自身建设，还需要创新农村基层治理体系，以便确保农村基层党组织对农村社会进行有机整合，引导农村社会发展方向的功能充分发挥，进而提升农村基层党组织凝聚力。

1 大数据可用性影响因素分析

建立系统的大数据可用性指标体系，首先需要梳理其影响因素。围绕大数据的4V特征，通过参阅文献[5-10]，结合数据挖掘的目的，梳理得到以下可用性影响因素：

(1)相关性。指数据是否满足用户的需求，包括用户的预期、感兴趣度和决策目标等。满足用户需求是决定大数据可用性的重要因素，数据挖掘的目的正是为了缩小挖掘结果和用户预期之间的差距。迈尔-舍恩伯格[11]教授在其书中也曾提到，在面对纷繁复杂的数据时,更应侧重于事物之间的相关关系，而不是其因果关系。

(4)一致性。指相关数据对于事物本身是否存在不一致的判定，一致性的数据要求在空间、时间、因果等关系上都是保存一致的。例如用1组数据描述客户{年龄=“30”，职业=“工人”，所属地区：“重庆”，所属省份：“四川”}，其中就存在空间和时间上的冲突(因为1997年后重庆便不再隶属于四川省)。可见，一致性的问题也会影响到数据的运用和分析。

(3)完整性。指数据是否完整，是否包含了对事物的所有信息。大数据的挖掘目标旨在将全体数据资源化，保留数据的最大价值。完整的数据，能够为数据的挖掘提供多角度、多层次的事实，从而保证大数据的质量。而数据的不完整则会由于其片面性，造成数据价值的丢失，影响数据的可用性，甚至导致决策的错误。

(2)准确性。其含义包括数据的客观性、公正性、真实性、精确性等，指数据是否能够客观反映事物的本质，并对事物进行准确的描述。在数据挖掘的过程中精确性必不可少，而决定挖掘结果是否可用、是否正确的关键就在于所处理的数据是否正确；相反，一个不准确的数据经过处理所得到的结果，将会对决策造成较大的影响。

(5)时效性。指数据的时间段是否满足当前的业务需求，是否存在由于时间长远而失效的数据。“生成迅速”是大数据的主要特征之一，大数据的质量需求除了数据的规模外，同时也要求数据的实时性。只有及时掌握了数据的最新变化，才能指引未来决策的方向。过时的数据不仅存在信息落后的弊病，甚至还可能由于未及时更新而出现错误的问题。

(6)同一性。不同于一致性，同一性是指多源数据对同一实体的描述是否一致。假如同一实体在不同的数据集中存在不同的描述，或是存在表达模糊、描述差异等问题，这就会造成决策模凌两可的局面。另外。同一实体的多种描述，也会造成数据源中信息重复或冗余的问题。类型多样是大数据的另一特征，正因如此，在大数据分析的过程中同一性就显得额外重要。

(7)扩展性。传统的数据注重数据的一致性，便于数据的挖掘分析。但是在面对大数据规模庞大的特征时，针对具体问题还需考虑数据的扩展性。虽然从数据源中获得的数据是零散的，但是这些数据如果能够通过有效的组合满足业务的需求，或是扩大数据的描述范围，对于提升数据的质量将起到重要的作用，因为数据在经过不同的组合后也会产生新的价值。

上述内容从不同角度论述了大数据可用性的影响因素，结合这些因素，利用AHP方法展开进一步的评估研究。

2 基于AHP的大数据可用性评估

2.1 AHP在大数据可用性研究中的应用

AHP(层次分析法)是一种定性和定量相结合的评价决策方法，适用于多目标、多要素、多层次的问题求解[12-13]。它能够通过定量的比较为决策提出合适的解决方案。在评估大数据的可用性时，拟解决的关键问题是保证评价的客观性。在处理该类问题上，AHP方法通常是对两两因素进行比较，进而通过判断矩阵实现对整体的评价。该方法能够有效地减小评估过程中人为主观因素的影响。

2.2 大数据可用性研究结构模型

鉴于此，将AHP融入到大数据的可用性研究中，建立其研究结构模型，如图1所示。

图1 基于AHP的大数据可用性研究结构模型

(1)目标层(可用性研究目标层)。

目标层是整个AHP框架的核心，是研究的主题。大数据可用性研究的核心目的旨在提升大数据的质量，通过合理的方法保证其可用性，得到最优的数据处理方案。

(2)准则层(可用性评估指标层)。

在制丝生产线上，将打叶复烤后的烟梗投料至生产线，除去烟梗表面的灰尘和烟梗中的金属与非金属杂物，增加烟梗的含水率和温度，提高烟梗的耐加工性，确保投入制造的烟梗符合产品设计的要求[1]。但目前梗预处理工序投料段采用人工投梗，生产中扬尘严重；投料时梗中掺杂有大量麻绳，除尘、除杂效果不明显，存在工艺隐患；传统梗预处理段采用“浸梗+润梗+储梗”工艺，浸梗时间不可调，预处理后的烟梗水分和回透率均匀性较差，满足不了精细化加工的要求；传统的恒流量控制方式较为复杂，扬尘大、维修不便。这些问题增加运营成本外，还影响了梗预处理加工质量和稳定性[2]。

(ω14,ω24,ω34)=(0.653,0.096,0.251)

(3)方案层(大数据挖掘方案层)。

方案层指综合考虑第2层中提出的影响指标拟采纳的解决方案，也就是面向大数据可用性的数据挖掘方案。

3 面向可用性的数据挖掘方案

3.1 拟定挖掘方案

在图1模型的基础上，拟定3种不同的挖掘方案进行比较，它们分别侧重于“整体价值”、“挖掘速度”和“挖掘精度”3个不同的点，用P={P1,P2,P3}表示。

方案1：尽可能保证数据的整体价值。该方案对于数据挖掘的速度要求较低，要求从最大程度上保留数据的整体价值。

周二的班级群，既是班级工作的“吐槽大会”，又是表扬大会，在各方的批评和表扬中，形成班级的治班锦囊。有一次，几位家长反映英语课堂纪律差。事后我了解到，原来那段时间学校的助教没安排过来，英语老师又是外教，加上学生多、自控力差，班级纪律便较差。在群里说明问题后，峻熙妈妈主动提出来学校担任助教工作，因为她英语过了八级，还当过老师，应该能胜任。于是，我向学校申请，那段时间就由我们班家长暂担助教工作。后来，英语课堂纪律果真有了极大改善，家长们纷纷点赞，希望自己也能进课堂。在吐槽和表扬中，我们共同为孩子的成长护航。

方案2：以最快速度从数据中获取价值，尽快提出决策。该方案侧重于价值的快速提取，对其他方面要求一般。

方案3：保证数据的挖掘精度及挖掘结果的准确性。该方案的特征在于保证数据的精确性，但势必会在一定程度上影响挖掘的速度。

马思特（上海）化学有限公司是总部在美国的Master Chemical Corporation设立的金属切削液及相关设备专业制造商，于2002年在上海注册成立的。马思特（上海）化学有限公司是TRIM牌金属切削液产品在亚洲地区的生产、研发和技术服务中心，也是为机加工行业提供化学品专业管理的服务商。

3.2 构造判断矩阵

在拟定挖掘方案后，则是构造各层的判断矩阵。

第三届“跨越太平洋——中国艺术节”于2016年9月8日至10月23日在旧金山湾区、拉斯维加斯及西雅图等地展开，13项中美文化交流活动，各项音乐舞蹈、歌剧和戏曲表演、艺术品展览、电影节和文学讲座等相得益彰。“绘意中国—百年老店西泠印社名家作品美国展”“寂寞修正果-刘振夏人物画展”“弘艺敦谊、情系中华——两岸四地当代名家书画展”“跨越太平洋——新丝路美国邀请展”等，及著名作家王蒙在旧金山总图书馆所做的“这边风景——我的新疆十六年”演讲，都吸引了大批观众和听众。

至此为止，课堂上，学生就像打开了潘多拉魔盒一样兴奋起来，“我发现：3格的一半是1格半，再加上半格也是2格！（如图6）”“5格的一半是2格半，去掉半格也是2格！（如图7）”甚至有学生提出：要是钉子板再长些，这样也可以，这是8格的一半4格，去掉4格的一半是2格（如图8）……

(1)准则层(可用性指标判断矩阵)。

首先是准则层的判断矩阵。采用表1中的对比标准，针对某公司的大数据研究项目，综合12名专家的评估意见，将C={C1,C2,C3,C4,C5,C6,C7}进行比较，得到的判断矩阵如表2所示。

(ω11,ω21,ω31)=(0.260,0.106,0.633)

表1 两两指标对比标准

标度定义与说明1相对大数据可用性,两指标具有同样重要性3相对大数据可用性,指标Ci相对于指标Cj稍微重要5相对大数据可用性,指标Ci相对于指标Cj明显重要7相对大数据可用性,指标Ci相对于指标Cj重要得多9相对大数据可用性,指标Ci相对于指标Cj极端重要2,4,6,8表示上述标准之间折中的标度

表2 大数据可用性指标判断矩阵

C1C2C3C4C5C6C7C11131/531/33C221/311/31/21/23C33531435C441/321/411/33C55321/3315C661/31/31/51/31/51C771/71/51/91/51/61/3

λmax=7.611

慢性病患者的就医行为主要发生在门诊[13]和自购药品[14]上，高血压长期而频繁的门诊治疗和疾病管理所花费的医疗费用是因病致贫的主要原因[15]。研究证实，收入较低的患者面临着较高的门诊就诊经济风险，高血压患者的门诊自付费用对患者家庭发生CHE存在着显著影响。

图2 各挖掘方案判断矩阵

例如，其中相对于时效性C2，P2方案比P1方案对时效性的要求更高；而相对于完整性C4，P1方案则比其他方案对完整性的要求都高。

3.3 计算过程

步骤1：用和积法[14-15]计算得到可行性指标矩阵的最大特征向量ω以及特征根λmax：

ω=(ω1,ω2,ω3,ω4,ω5,ω6,ω7)T=

(0.156,0.096,0.362,0.106,0.207,0.049,0.024)T

（七）动物感染试验将分离菌株24 h血斜面用灭菌的生理盐水适当稀释，配成悬浊液，腹腔注射5只健康小白鼠，接种量0.3 ml/只，另外5只作对照，注射同剂量的生理盐水，观察结果。

(1)

(2)方案层(挖掘方案判断矩阵)。

(2)

步骤2：将上述特征根代入到一致性指标检验公式中。

(3)

计算得到CI=0.102，CR=0.077。其中，CI为一致性指标，其值越大矩阵的不一致程度越高；n为判断矩阵的阶数；RI为随机一致性指标，是经过1 000次正反矩阵计算得到的平均随机一致性指标，如表3所示；CR为一致性比率。当C<0.1时，说明该判断矩阵的不一致性程度在容许范围内，即说明对于大数据各可用性指标的权重比较属于合理范围。

表3 矩阵平均随机一致性指标

nRInRI1091.4620101.4930.58111.5240.90121.5451.12131.5661.24141.5871.32151.5981.41

步骤3：同理，用和积法求出方案层对目标的最大特征向量，分别为：

通过几年的治理，项目规模大，质量高。坡改梯工程布局合理，路沟池凼配套齐全，梯坎牢固，梯面平整，土层深厚。经果林、水保林适地适树，工程整地，栽植规范，成活率高，苗木长势喜人。先后涌现出开县津关溪小流域五坝坡改梯、五坝柑橘园、津关沼气工程，周家沟小流域桑坪坡改梯、毛成油桃园和沿江溪小流域宝丰梨园、宝丰水保林、中山农村饮水工程等规模大、质量高的治理工程（治理点）。

1.资源开发集约节约化。建筑用石料集中开采区要统一规划开采布局、开采总量，全面综合利用矿山固体废弃物、循环利用矿山用水，基本做到零排放。同时，通过严格实施矿区开发规划，将残留或损毁的山体采平为可供利用的土地。

(ω12,ω22,ω32)=(0.118,0.681,0.201)

(ω13,ω23,ω33)=(0.539,0.297,0.164)

准则层描述的是达成目标需要考虑的因素集。在大数据的可用性评估中，则是指影响大数据可用性的相关因素。对此前文已经论述了7个因素，用集合C={C1,C2,C3,C4,C5,C6,C7}表示。

同理，比较得到3类挖掘方案相对于各指标的判断矩阵，如图2所示，其中Pij表示相对于某指标，方案i与方案j在权重上的比较。

(ω15,ω25,ω35)=(0.260,0.106,0.633)

(ω16,ω26,ω36)=(0.334,0.098,0.568)

(ω17,ω27,ω37)=(0.600,0.200,0.200)

步骤4：层次总排序，即将三种方案的可行性进行排序。分别将步骤3和步骤1所得到的特征向量和ωi代入到式4：

(4)

得到结果为{ω(P1),ω(P2),ω(P3)}={0.401,0.231,0.368}，ω(Pj)的值越大说明该方案j对于提高大数据可用性的权重越大，其可行性更高。

3.4 研究结果对比

研究结果对比如表4和表5所示。

表4 指标对比

指标权重一致性C1ω1=0.156时效性C2ω2=0.096相关性C3ω3=0.362完整性C4ω4=0.106准确性C5ω5=0.207同一性C6ω6=0.049扩展性C7ω7=0.024

表5 方案对比

方案权重P1注重全面ω(P1)=0.401P2注重速度ω(P2)=0.231P3注重精度ω(P3)=0.368

(1)通过结果比较可以看出，该项目大数据的可用性对时效性C2、同一性C6以及数据扩展性C7的要求较低，而以相关性C3最高，说明决定该项目大数据可用性最重要指标是“数据的相关性”，它将决定该项目大数据所产生的价值，同时也说明数据源中数据的时间变化以及冗余性等并不会较大地影响其决策。

(2)从方案对比可以看出P1>P3>P2。说明要实现该项目价值的最大化，提高数据的可用性，所采用的挖掘方案应该首先要注重的是保留数据的完整性，从整体上对数据进行分析；其次在处理的过程中尽量保证数据的准确性等，而不宜过于追求挖掘的速度，否则将会影响到最终结果的可用性。

以上结论与迈尔-舍恩伯格在文献[11]中所提出的观点一致，说明大数据的可用性重在其关联性，在分析过程中需要对全体数据进行分析而不是抽样分析，同时需要保证数据的准确性，不能一味地追求速度，只有在这样的条件下才能尽可能满足用户需求，缩小挖掘结果与用户预期之间的差距，将数据进行有效的价值转化。

为了解上海市崇明区的肺结核疫情特征，分析疫情变化走向，以便为进一步完善本地区肺结核防治策略提供依据，现将上海市崇明区2016至2017的肺结核疫情分析如下。

4 结束语

围绕大数据的特征，通过参阅文献梳理得到大数据可用性的因素集，提出了基于AHP方法的大数据可用性及挖掘方案模型研究。用数学的方法描述了大数据的可用性，并在该模型基础上结合数学的方法针对有利于提高大数据可用性的挖掘方案展开了定量的对比研究，为大数据的可用性评价以及挖掘方案研究提出了一种可行方法。

郑大一附院十分重视脑血管疾病领域。据院长刘章锁介绍，目前，医院有河医、郑东和惠济3个院区，实行三个院区差异化发展、同质化管理、标准化建设和规范化运行。其中，惠济院区定位为以脑血病为主的大专科小综合。而且，脑血管病医院也是医院12个院中院之一。

整个模型的建立科学合理，采用定性和定量相结合的方法，有效减少了评价过程中人为主观因素的影响，对于大数据的可用性研究具有一定的参考价值。然而，大数据的可用性研究并非是一项简单的任务，在今后的研究中还有许多需要完善的地方，包括可用性因素集的完善、提高大数据可用性的方案研究等。总之，只有在遇到新问题时，针对具体问题具体分析，不断总结，才能逐渐完善大数据的可用性研究理论。

参考文献：

[1] GANTZ J,REINSEL D.Extracting value from chaos[EB/OL].(2011)[2017-07-05].https://russia.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-

ar.pdf.

[2] 张引，陈敏，廖小飞.大数据应用的现状与展望[J].计算机研究与发展,2013,50:216-233.

[3] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

[4] 李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625.

[5] MILLER D W，YEAST J D，EVANS R L．Missing prenatal records at a birth center：a communication problem quantified[C]//Proceedings of AMIA annual fall symposium．Maryland：American Medical Informatics Association，2005：535-539.

[6] SWARTZ N.Gartner warns firms of ‘dirty data’[J].Information Management Journal,2007,41(3):6-12.

[7] KORN F,MUTHUKRISHNAN S,ZHU Y.Checks and balances:monitoring data quality problems in network traffic databases[C]//Proceedings of the 29th international conference on very large data bases.[s.l.]:[s.n.],2003:536-547.

[8] XIONG Hui,PANDEY G,STEINBACH M,et al.Enhancing data analysis with noise removal[J].IEEE Transactions on Knowledge & Data Engineering,2006,18(3):304-319.

[9] 李聪颖,王瑞刚,于金良.大数据分布式全文检索系统的设计与实现[J].计算机与数字工程,2016,44(12):2426-2430.

[10] 李卫榜,李战怀,陈群,等.分布式大数据不一致性检测?[J].软件学报,2016,27(8):2068-2085.

[11] 维克托·迈尔-舍恩伯格，肯尼斯·库克耶.大数据时代[M].杭州:浙江人民出版社,2013.

[12] 曹黎侠,冯孝周.新的改进AHP算法研究及应用[J].计算机技术与发展,2010,20(12):115-117.

[13] 王磊,黄梦醒.云计算环境下基于灰色AHP的供应商信任评估研究[J].计算机应用研究,2013,30(3):742-744.

[14] 赵焕臣,许树柏,和金生.层次分析法[M].北京:科学出版社,1986:22-26.

[15] 魏翠萍.层次分析法中和积法的最优化理论基础及性质[J].系统工程理论与实践,1999,19(9):113-115.

作者

杨明，李铁冰，姜茸，高提雷，王佳

出处

《计算机技术与发展》 2018年第05期

上一篇：基于分项可变权函数的各项异性去噪模型

下一篇：基于全卷积网络的目标检测算法

《计算机技术与发展》2018年第05期文献

大数据下数据预处理方法研究作者：孔钦，叶长青，孙赟

基于最小二乘法和BP神经网络的TOA定位算法作者：浦佳祺，陈德旺

基于权重自适应形态学的周期性噪声去除方法作者：戴丹，张兴刚

一种基于标签的程序控制流错误检测方法作者：姚伟，顾晶晶

基于文本属性的微博用户相似度研究作者：李梦洁，邵曦

融合信息熵和加权相似度的协同过滤算法研究作者：李玲，王移芝

基于弱特征重识别的多目标长效摘要作者：石亚玲，刘正熙，熊运余，李征

基于模型的IMA时间资源配置验证方法研究作者：王明明，胡军，张维珺，李宛倩

基于兴趣度度量的正负关联规则挖掘方法研究作者：马彦勤，武彤，邓烜堃

一种基于深度残差网络的车型识别方法作者：刘敦强，沈峘，夏瀚笙，王莹，贾燕晨

基于分项可变权函数的各项异性去噪模型作者：王锐锐，蔡光程

基于AHP的大数据可用性及挖掘方案模型研究作者：杨明，李铁冰，姜茸，高提雷，王佳

基于全卷积网络的目标检测算法作者：施泽浩，赵启军

基于博弈论的ALM协议改进算法作者：蔡媛媛，曹自平，张金娅

改进的新型蝙蝠算法作者：吕赵明，张颖江

基于节点兴趣非结构化P2P网络搜索机制研究作者：庄伟

自适应学习系统中“KCP学习者模型”研究作者：李春生，张永东，刘澎，张可佳

基于主成分特征的快速分形图像压缩算法作者：张爱华，唐婷婷，汪玮玮，张璟

基于量子粒子群优化的DV-Hop算法研究作者：张中芳，张玲华

无线感知网络中动作识别的滤波算法作者：吴春香，张建明

基于社交网络分析的诈骗团体挖掘方法研究作者：贾志娟，赵靓，周娜

一种高性能计算网络下的TCP查找哈希算法作者：张立武，冯宝，周建华，李洋，茅天奇

一种基于预判筛选的频繁项集挖掘算法作者：李德辰，吕一帆，赵学健

基于人工鱼群算法的改进质心定位算法作者：汪晨，张玲华

基于智慧实验室的安全事故分析与预测作者：楚丹琪，李睿智，高洪皓，张康

基于龙芯处理器的嵌入式可信解决方案作者：易平，庄毅

基于位置推荐中的隐私保护方法研究作者：张海涛，汪佩佩

面向OSPF脆弱点的分节点污染方法研究作者：周季璇，顾巧云，凤丹

基于计算机软硬件的视频监控系统设计与研究作者：黄岩

多服务器环境下动态身份认证密钥协商方案作者：曹阳

杂志信息网