更全的杂志信息网

农经权中数据缺省的技术弥补与缓解机制研究——以福建省厦门市某区为例

更新时间:2016-07-05

在农村土地承包经营权外业确权登记活动中,受到调查对象遗漏、调查对象认知能力约束以及调查员自身思维缜密性的限制,往往造成外业调查表中数据的缺省,对于这一部分数据不弥补又通常耗费大量的人力、物力、财力进行补充调查,耗时长,效率较低,对于这一问题的优化处理往往采用技术弥补与社会性补充调查相结合的方法。当前对于数据缺省重构普遍采用均值法或最大频率法,然而这些方法往往造成弥补数据失真的问题。鄂旭等(2005)基于断点属性值加以探索;赵飞等(2011)基于最小计数概要提出最小频率概要而实现缺省数据的填补;张其文等(2006)基于粗集理论思想,以相似关系替代粗集理论中的不可分辨关系,从而提出基于相似关系的填充算法,以实现数据重构精度;武森等(2012)则基于不完备数据聚类的缺失数据填补方法来针对非类变量不完备数据集定义约束容差机和差异度,从而直接计算研究对象的总体相异程度以实现数据填补;谷峪等(2010)通过动态概率路径实践模拟,基于挖掘已知的区域之间的顺序相关性来对后续发生的时间进行判断和填补;张伟(2003)则基于Rough集理论加以探究,其不需要附加信息,具有计算简单、直观等优势;郭景峰等(2002),文硕频等(2003)从数据间的关系入手,引入相似性概念,基于决策树来实现遗失数据的填补;卢娟等(2012)基于规范变量分析以实现数据的重构。通过对前人研究的梳理,本文将详述三种适宜弥补农村土地承包经营权确权颁证中的数据缺省方法,再通过社会性缓解机制来缓解因数据缺省而引发的农户与政府及技术施工方的矛盾,从而促进项目高效、高质推进,服务于农村社会经济发展。

1 研究区域与数据特征

研究区域为福建省厦门市某标段位于福建省东南部沿海地区,亚热带海洋性气候,全年气候温润,地形较平坦,区内工业、文教发达,有新建高铁车站一座,常住人口3.8万人,流动人口4.5万人,农业现代化水平高,新型农业经营主体发育较为完善,农地利用效率高。

研究区域数据整体完整性在96%以上,主要数据缺省在身份证号码、地块合同面积等两方面。身份证号码数据缺省存在两个方面,其一是身份证号码数据缺失,其二是身份证号码错误,前者必须通过二次调查获取,后者可通过身份证验证程序加以修正。而地块合同面积缺省直接指数据缺失,该数据能够经由数据重构获取。

2 数据重构方法

本文中着重于对基于遗失数据重构的软测量方法、基于决策树的不完全决策表的数据补充方法以及一种身份证信息验证与补遗算法实现数据重构。

党的十七届三中全会提出“发展现代农业,必须按照高产、优质、高效、生态、安全的要求,加快转变农业发展方式,推进农业科技进步和创新”的要求。现代农业产业规划以农业发展为本,不断创新农业发展模式,以农业为主导的田园综合体才能得到更好的发展。

2.1 基于遗失数据重构的软测量方法

基于遗失数据重构的软测量方法首先应设所有的过程变量为Z=[X,Y],然后建构Z的主元模型Z=PQT+ε,其中PEn×Pz为主元矩阵,QEm×Pz为负荷向量矩阵,εEn×m为误差矩阵,则主元模型的预测平方误差为S=εεT。当前全体样本数据为z=(x1,x2,…,xm,y1,…,yl),则为保障变量之间相关性不变,则应确保S最小,即U=R-QQT, 对某遗失数据yj求导并令其为0,则

…,yl]T+[x1,x2,…,xm,y1,…,yl]

[0,0,…,1,0,…,0]U[x1,x2,…,xm,y1,

U[0,0,…,1,0,…,0]T

根据前文,对象集为X,决策树生成算法为以下形式(图1)。

=0

(1)

联合上述l个等式可得到:

(2)

研究显示,第1102条数据中,身份证号末尾应更正为8;第1261条数据中,身份证号末尾应更正为6。与此同时,修正后数据仍需在公示时请农户查验,以确保数据精准性。而22条缺省数据则需要公示后二次调查。

(3)

2.2 基于决策树的不完全决策表的数据补充方法

基于决策树的不完全决策表的数据补充方法首先映射二元集为Ω=(X,Y),其中X为由n个研究对象{a1,a2,…,an}构成的非空集合(其每个元素称为对象),Y为由m个属性{y1,y2,…,ym}构成的有限非空集合且yY则∃yXZyZy为属性y的值域。倘若至少存在一个属性yY使Zy存在空值,则Ω是一个不完全信息系统(记为“*”)。不完全决策表为具有Ω=(X,Y∪{v})的不完全信息系统,此中vY*Zv为决策属性,Y中的元素为条件属性。若v的值域Zv基数为p,则v决定X的一个划分X=W1∪…∪WP,其中,∀a,cWid(a)=d(c),1≤ipWiΩ的第i个决策类。对每个y可以定义对象间的不完全相似关系,即Ψ(y)={(a,c)∈X×X|y(a)=y(c)或y(a)=*y(c)=*}。令Ωy(a)={cW|(a,c)∈Ψ(y)},则(郭景峰等,2002;文硕频等,2003;李如平,2010;赵京梅等,2010)。

2.2.1 决策树构建

作为国家国防事业的重要组成部分,军工企业的发展一直受到关注。在经济全球化进程不断推进的今天,国际市场与国内市场的深度融合增加了行业竞争,这对军工企业发展提出了一定的要求。因此,面对激烈的竞争,通过优化质量管理系统来提高军工产品质量成为了军工企业的主要选择。

图1 决策树生成流程 Fig.1 Creative processes of decision trees

基于信息理论,可得到一棵决策树能对样本做出不完全正确划分的期望熵D(X),即

(4)

首先,应将该节点所有ai*y的取值确定为该节点其他不含“*”对象在y的取值,再修改ai*ai且从其他节点中去掉ai*

(5)

通过检验,此两组数据符合数据精度要求(卢娟等,2012;李庆华,2011)。

1 身份证信息验证与补遗表

Table 1 Message authentication and addendum on ID card

ACDEFGHIJKLMNOP7身份证号码111213审核结果数位验证地址码验证出生日期码验证省市县年月日顺序码验证校验码验证加权和余数末位核对统计验证值验证结果

2.2.2 遗失数据弥补

y为节点所需的期望信息E(y),即

其次,基于对ai*的考察,定义X的一个子集F={aX|y(a)≠*},然后定义ai*F中对象ai的相似度:其中

再次,取与ai具有最大相似度的F中的对象ajy(ai)=y(aj),在含有aj的子节点修改ai*ai,且同时从其他节点中去掉ai*。若节点中仍存“*”,重复前述过程直到“*”不存在为止。

50多个国家和地区,4000多名世界顶级舞者,齐聚美国凤凰城,嘉琪是年纪最小的参赛选手。当她出现在比赛现场时,人群中的高手们都一脸质疑,甚至有人直接走过来,拿手在嘉琪的脑袋前比划了两下,“意思是说我很矮。”嘉琪没有生气,也丝毫不怯场,在场外的battle(对抗)环节中,跟着音乐来了一场freestyle(即兴发挥),结果让本来一脸轻视的围观舞者,心服口服地为这个中国小学生欢迎鼓掌;等到真正比赛时,她拿着一个粉色的保温杯就上台了,先是向台下深深地鞠一躬,乖巧的样子,丝毫没有斗舞的气势。

最后,停止对属性值的修正,转到决策树构造中,对新产生的节点重复上述操作(郭景峰等,2002;文硕频等,2003)。

所有研究[6-11]均报道了采用随机分组,仅1项研究[11]未提及具体随机方法,其余均为随机数字表法[6-10];所有研究[6-11]的统计学方法均正确,组间分配均平衡;5项研究[6-10]报道患者均签署了知情同意书,仅1项研究[11]未提及是否签署了知情同意书;所有研究[6-11]均未采用意向性治疗(ITT)分析,均未提及随机方案的隐藏、盲法的实施;2项研究[6,9]报道了退出与失访,且均说明了退出与失访的人数及原因。经评价,1项研究[11]为高偏倚风险,其余研究[6-10]均为低偏倚风险,详见图2、图3。

2.3 身份证信息验证与补遗算法

身份证信息验证与补遗算法基于Excel平台而开发,具体算法结构如下:

首先,构建身份证信息验证与补遗表,该表分为两大模块,即身份证号码输入模块与审核结果输出模块。审核结果输出模块又包含数位验证、地址码验证、出生日期码验证、顺序码验证、校验码验证、统计验证值、验证结果等七个子模块构成(表1)。

其次,设计数位验证、地址码验证、出生日期码验证、顺序码验证、校验码验证、统计验证值、验证结果等七个子模块的算法。

通过对比算法的收敛速度可以反映出算法的运行效率,由仿真结果图4得知,本文的改进的粒子群算法比传统的粒子群算法在迭代次数相同时,会有更高的节点网络覆盖率,同时,会更快地达到最大的节点网络覆盖率。

最后,在“身份证号码”对应的表格中填入身份证号码即可得到验证信息与修正信息。

从本研究的20个样本中共获得733 104个优质序列(图1),对基因序列相似性在97%以上者用OTU进行生物信息统计分析,共检测到386个OTUs,分别归为14个门、23个纲、39个目、59个科、98个属。稀释性曲线显示,20个唾液样本曲线的末端虽有上升趋势,但总体趋向平坦,说明测序数据量合理(图2)。香农指数分析结果显示,20个唾液样本曲线越来越趋向平坦,说明该样本测序数据量足够丰富,可以得出样本中丰富的微生物多样性信息(图3)。主成分分析结果显示,高龋均组的点相对分散,重度牙周炎组的点相对聚集,说明高龋均组的微生物更具多样性,推测两组样本的微生物构成有差异性(图4)。

3 外业数据补遗的实证研究

3.1 基于遗失数据重构软测量方法的实证分析

基于遗失数据重构软测量方法处理的数据为地块信息表中的合同面积与实测面积,经数据描述性统计分析表明,样本数据1963对,空值数据为0个,异常值为31对(即实测面积与合同面积的绝对值大于等于0.2亩)。对遗失数据yj求导并令其为0,即将之带入式(1)。

由此可得遗失数据的重构值:

补遗获取的31对数据异常值为2对(即实测面积与合同面积的绝对值大于等于0.2亩),因此再将上述实验重复而获取得到数据重构值为:

根据表1中的实验数据得到以下结论:1)对比A和C或对比B和D发现,在一定条件下增加空气层可以减小结构层的侵彻深度,但这会引起结构成坑直径的显著加剧,这和文献[20]的数值计算结果是定性吻合的。2)对比A和B发现,当靶体含空气隔层时,若将砂浆层从混凝土顶部转移至花岗岩顶部,则混凝土层侵彻深度hc减小50%以上。3)对比C和D发现,不设空气隔层时,将砂浆层从混凝土顶部转移至花岗岩顶部可使混凝土层侵彻深度hc减小16.5%。4)从减小混凝土层侵彻深度hc的角度看,方案B(增加空气层并将砂浆层置于整个结构最上方)是最有利的,但从减小横向破坏区域来看,方案B却是最不利的。

备选属性y的信息增益H(y)=D(x)-E(y)。属性y取值的信息度量为其信息增益率为在于不完全决策表构造决策树的算法中采用信息增益率作为每个节点选取测试属性的判断标准,且只计算Xi中取值确定的对象个数(郭景峰等,2002;文硕频等,2003)。

第一,同情认同同情认同强调说话者与听话者产生共同的情感认知而建立彼此认同的关系,说话者希望听话者与自己产生共鸣,从而实现规劝目的。例如,习近平在关于“一带一路”的对外传播讲话中提到“古丝路的起点就位于我的家乡中国陕西”,作为外交致辞人习近平将个人的故乡与“一带一路”这个议题相联系,这就拉近了与沿线民众对“一带一路”倡议的心理距离,产生共情并达成同情同一。同情认同是人与人之间基于共同感受或共同体验认同而实现劝说目的。它与古典修辞学中的“规劝”最为接近,但其所涉及范围与意义较之更广。

3.2 基于决策树的不完全决策表的数据补充方法的实证分析

基于前述理论,文章首先对期望熵期望信息进行梳理,然后计算y的信息增益H(y)=D(X)-E(y),信息度量信息增益率研究表明Xi中取值确定的对象个数为1963对。经筛选,异常值为31对,然后定义X的一个子集F={aX|y(a)≠*},并定义ai*与F中对象ai的相似度:经试验验证第一次试验后存在5组数据异常,因此再次重复前述实验以实现精度优化。

图5给出了不同倾角和浆液扩散方位角时的注浆压力随时间变化曲线。由图5可知:注浆压力随着注浆时间的延长而增大,在注浆初期,注浆压力增长速度较为缓慢,而注浆后期的增长速度明显加快。

3.3 身份证信息验证与补遗算法的实证分析

2 身份证信息验证结果

Table 2 Result of ID card information verification

序号身份证号码数位验证地址码验证出生日期码验证省市县年月日顺序码验证校验码验证加权和余数末位核对统计验证值验证结果1102******************对对对对对对对对24648错8假︙1261******************对对对对对对对对28166错8假︙

基于前述算法可以得到表2的计算结果。1963项数据中有24个数据身份证信息存在问题,其中存在2个身份号码错误(算法可以识别更正),22个身份证号码缺失,需要二次调查。

4.C 提示:氧化铝溶于氢氧化钠溶液生成偏铝酸钠,偏铝酸钠溶液通入二氧化碳生成氢氧化铝,故A正确;氯化铝与氨水反应生成氢氧化铝,氢氧化铝溶于氢氧化钠溶液生成偏铝酸钠,故B正确;铝不能直接生成氢氧化铝,故C错误;氯化镁与氢氧化钠溶液反应生成氢氧化镁,氢氧化镁加热分解生成氧化镁,故D正确。

由此可得遗失数据的重构值表达式(赵京梅等,2010):

4 社会性数据补遗缓解机制

农村土地承包经营权确权登记颁证是一项关系国计民生的重要普查性工作,因此其有高度的精度要求,故而通过算法补遗之后需要再次到农村进行公示及公示后的再次补充调查。对于农村土地承包经营权确权登记颁证外业数据完善后的公示及公示后的再次补充调查,为避免数据严重缺失和高度失真而引发农户负面情绪,因此文章前述部分对数据缺省问题做了一系列修正处理,而如何在缓和二次调查所引发的农户情绪冲突,文章对此做了以下一系列探讨。

在课题中有一个字眼“假”,谁知道什么意思?整个词语什么意思?请同学们读读课文,找到能解释这个词语的句子。

4.1 具有针对性的二次调查

研究区域数据整体完整性在96%以上,而在补遗之后,数据精度达到99%左右,经过公示后可根据农户确认表知晓何者为存在问题的数据,基于此可以采取有针对性的二次调查。在公示过程中,不宜出现聚众现象(农民人数>5人),以规避农户间相互的负面信息传递而产生的数据夸大现象。在二次调查中,应采用1对1的调查模式,规避其他农户对调查农户的信息干扰,从而保障数据精度。

4.2 权威文本资料核查

农户受到教育水平、认知能力等约束而不能够清晰知晓证件信息、耕地信息,因此在对农户进行访谈法调查时应请农户出示相关证件,以保障数据质量。访谈法调查之后应通过地方农业部门、村委会协助,查阅文件资料以实现调查信息的验证,倘若存在差异则应与农户再次确认,从而避免数据的再次错误。

4.3 农户参与性缓解方法

确权工作人员多非本地人,在语言、行为偏好等方面与农户存在差异,从而在沟通上存在一定障碍。对此,应邀请标段所在村组知识水平、人际交往能力、语言能力、权威性高的长者予以协助,参与调查,从而实现农户参与,缓解被调查农户的心理压力,降低沟通成本,提升数据精度质量。

5 结论

本轮农村土地承包经营权确权登记颁证是我国土地制度改革中一项具有里程碑意义的工作,其明确农村土地权属,将长期以来积压下来的土地权属问题有效解决,为土地流转、土地规模经营、培育新型农业经营主体奠定了良好的基础。当前,本轮农村土地承包经营权确权登记颁证工作是在试验中进行,工程实施标准不断根据实际发生的问题的变化,数据精度、农户认可度等方面仍在不断探索缓解的契合点,因此本文就确权活动中数据缺省问题加以探讨,不仅仅支持技术性弥补,更注意到社会性缓解方案的建立,基于上述研究,本文可凝聚以下两点主要结论:

(1)数据缺省能够通过技术手段加以弥补,这种手段并非简单的数据重构,而需要经过一些列数理理论加以支撑。本文对地块信息的弥补采用了基于遗失数据重构的软测量方法、基于决策树的不完全决策表的数据补充方法,对身份证信息缺失采用了身份证信息验证与补遗算法加以实现。

(2)在前人的研究的成果与数据运行实践基础上表明,基于遗失数据重构软测量方法相比传统方法更为灵活,而基于决策树的不完全决策表的数据补充方法则大大提高了数据补遗精度。

如住院患者不遵守住院规定,擅自离院外出,或虽然请假却不能按时返回医院;危重患者需陪护者,医院虽进行告知,家属因各种原因不履行应尽的责任、不合作;患者角色行为不适应,拒绝服从治疗护理,或经济承受能力以及所受教育的限制等因素也将会造成护理安全隐患[3]。

(3)确权数据经过技术性补遗之后必须进行公示及公示后的再次补充调查,同时应使农户积极参

与,共同完成数据弥补。公示及公示后的再次补充调查必须是具有针对性的二次调查,在调查之后应进行权威文本资料核查,在调查过程中积极采用农户参与性缓解方法提高调查效率。

参考文献

鄂旭, 高学东, 武森. 2005. 一种新的遗失数据填补方法[J]. 计算机工程, 31(20): 6-7.

谷峪, 于戈, 李晓静, 等. 2010. 基于动态概率路径事件模型的 RFID 数据填补算法[J]. 软件学报, 21(3): 438-451.

郭景峰, 米浦波, 刘国华. 2002. 基于决策树的数据遗失值填充方法的研究[J]. 计算机工程与科学, 24(5): 8-10.

李庆华. 2011. 1 种基于遗失数据重构的软测量方法[J]. 计算机与应用化学, 28(5): 545-548.

李如平. 2010. 数据挖掘中决策树分类算法的研究[J]. 东华理工大学学报:自然科学版, 33(2): 192-196.

卢娟, 龚晶, 许凤慧. 2012. 基于规范变量分析的数据重构方法及应用[J]. 微计算机信息, (9): 71-73.

文硕频, 乔胜勇, 陈彩云, 等. 2003. 基于决策树的不完全决策表的数据补充及规则提取[J]. 计算机应用, 23(11): 17-19.

武森, 冯小东, 单志广. 2012. 基于不完备数据聚类的缺失数据填补方法[J]. 计算机学报, 35(8): 1726-1738.

张其文, 李明. 2006. 一种缺失数据的填补方法[J]. 蘭州理工大學學報, 32(2): 102-104.

张伟, 廖晓峰, 吴中福. 2003. 一种基于 Rough 集理论的不完备数据分析方法[J]. 模式识别与人工智能, 16(2): 158-163.

赵飞, 刘奇志, 张剡, 等. 2011. 一种大域数据流中缺失值的填充方法[J]. 南京大学学报: 自然科学版, 47(1): 32-39.

赵京梅, 杨志辉. 2010. 模糊多属性群决策在铁路系统评价中的应用[J]. 东华理工大学学报:自然科学版, 33(2): 187-191.

柴旭
《东华理工大学学报(自然科学版)》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号