更全的杂志信息网

基于云变换的农业领域知识概念提取

更新时间:2009-03-28

近年来伴随着人工智能的迅猛发展,利用其获取农业相关数据的技能越来越丰富,面对这些来源广泛、结构冗余复杂且形式繁杂的海量数据[1]。如何快速精准地解读并提取数据本身具有价值的信息,为农业领域研究提供可靠具有指导意义成为亟待解决的问题。

众所周知,概念是对事物信息存在方式和规律表征的认识和综合[2],是最能体现信息价值的部分。而概念往往通过识别其外延与内涵的角度来被刻画和描述,深化对其本身概要认识和准确理解。农业知识领域里概念浩繁复杂,云模型作为一种实现概念内涵和外延之间的相互转换的理论,因在处理不确定性和模糊性彰显出的优势已成功被应用于农业领域。金菊良[3]等人借助正态云模型实现淮河流域农业旱灾风险评估;张侃谕[4]等利用云模型适应精准施肥pH值调节过程的控制;薛金林[5]等人基于云模型进行农业机器人人机合作路径规划。但遗憾的是这些研究都没有充分考虑领域数据粒度多、结构繁复等的特点,农业领域知识概念的对象不同,其数据表征概念的粗粒度存在较大差异,导致结果精度显著不同。因此,本文在云模型理论基础上对原子概念提取做进一步细化,首先通过K-Means++实现粗糙聚类,改进算法的执行效率和复杂度,再对不同论域空间下的信息进行概念提取;最后再对已有原子概念进行云综合,优化泛概念树的层次结构,实现领域数据的自动划分。

1 云理论

1.1 产生背景与定义

自然语言值上的模糊性和随机性,难以进行单独研究。李德毅在充分结合模糊数学理论[6]和概率理论[7]之上,将语言值中的定性信息表达到精准数据体现进行有效的转化[8]

定义[9] XUU论域上的定性概念,T是与U相关的语言值,x(xX)对定性概念T的确定度CT(x)∈[0,1]是具有稳定倾向的随机数,则概念T从论域U到区间[0,1]的数域分布,称为云。即:

CT(x):U→[0,1]

xUxCT(x)

将一个客观概念通过云模型的3个数字特征,充分地将概念的亦此亦彼模糊性和隶属的随机性结合,更加直观地实现定性概念的整体定量特性的表征,云模型的特征如图1所示。

  

图1 云模型的特征

1.2 云变换

农业领域里大多数的数据分布都符合高斯混合模型,基于概率统计学和云变换的理论[10]可以将任何一个频率分布转换成多个高斯分布的叠加,叠加越多误差越小的理论分析,具体算法[11]如下:

输入: 输入论域空间的样本数据集的分布函数f(x);

输出: 按概念划分的M个原子云模型集{C(Exi,Eni,Hei)|i=1,2,3,…}。

步骤1:输入论域空间的样本数据集{Xi|i=1,2,3,…},搜索其频率分布函数f(x)所有极大值所在位置。

步骤2:将步骤1中获得的极大值个数M,作为初始原子云模型的个数,且定义为第M个原子云模型期望值ExM(M=1,2,3…)。

步骤3:计算以ExM期望为原子云模型的熵EnM,根据ExMEnM拟合数据点计算云fi(x)。

表1给出了分别运用峰值法云变换和本文方法进行云模型概念生成后得到的概念中心以及误差率、平均耗时时间。可以看出,使用改进的云变换方法所得到的概念中心较原始的云变换方法而言所得到的概念中心与实际更为接近,概念的误差率更小。算法执行效率方面,本文方法经过聚类得到数据簇为原始数据集的子集,因此较少的迭代次数和执行时间即可获得稳定解以及更为精细的原子云模型概念,从而证明了本文所提出方法的有效性。

  

图2 频率分布与原子云模型

2 基于聚类的云变换改进

2.1 改进云变换方法

在上述的云变换算法中是将原始数据频率分布函数的极值大点作为原子云模型表示的概念中心,随着数据量的增大,极值大的个数也随之增大,其算法的迭代次数相对增加,导致算法的执行效率低下。因此,本文利用K-Means++聚类算法对数据进行初步筛选,针对聚类后的先验样本数据进行云变换,以减少迭代次数,进而提高算法性能。

K-Means++[12]可以优化传统K-Means算法的选择初始化聚类中心过程,有效地防止陷入局部最优解问题。根据其μj=1/|CjiCjxi,定义中的所有样本均值的本质就是沿着目标函数做梯度下降,而目标函数本质上可认为xi服从均值为μj、方差是某一个值的高斯分布,且是K个高斯混合分布[13-14]。农业领域类数据绝大多数都是近似服从高斯分布的,这也是本文选用K-Means++聚类算法一个重要理论依据及原因。具体的改进算法步骤如下:

根据去年8月国土资源部公布的数据,全国石油储量持续大幅增长,近年年均新增探明地质储量10亿吨以上。数字看起来还是很好看的,但是,仅提新增地质储量仍在高峰期的说法是不全面的,易误导视听。它掩盖了新增经济可采储量已入不敷出、剩余可采储量开始出现下降的严峻形势。

速生桉是培育短周期工业原料林的最佳树种之一,也是四旁绿化、沿海防护林的优良树种。由于速生桉的生产周期短,可以极大程度的解决建筑行业木材短缺的现状,因此,对于培育速生桉的优点而言,经济效益是不可忽视的。速生桉不仅能够为林业市场带去较大的经济效益,也能够为我国建设生态绿色小康社会贡献力量。然而不应忽视经济效益下所应该注重的营造林技术,对于速生桉的培育而言,良好的营造林技术才能培育品质较佳的速生桉,才能够获得林业经济效益的提高。

输出: 论域U的原子云模型表示概念集C={Ci(Exi,Eni,Hei)|i=1,2,3,…}。

输入: 论域样本数据集U={xi|i=1,2,3,…};

分析上述算法知,其时间复杂度主要取决于步骤2,在大数据的条件下,利用聚类算法进行初步划分,减少样本数据在每次迭代中的计算量,降低了程序空间使用率,将时间复杂度由O(|U|2)降低至O(K2×|U|),空间复杂度为O(|U|),具有良好的执行效率和伸缩性。

步骤1:初始化C=∅。

步骤2:调用K-Means++对论域U原始数据样本进行聚类,得到聚类簇为K的初始聚类集C′={xi,Clusterid|i=1,2,…m;Clusterid=1,2,…K}。

聚类簇K的设定策略:

(1)依据原始数据频率分布计算所有极大值与极小值的均值m1m2

取16个批次紫荆叶,分别按“2.1”项下方法制备质量浓度为100 mg/mL(按生药计)的紫荆叶提取物供试品溶液,进样测定,得到相应色谱图。以各批次供试品溶液的色谱图为参照图谱,采用《中药色谱指纹图谱相似度评价系统2004(A版)》,设时间窗口为0.5,选择各批次样品中均含有的、含量相对较高且分离度较好的色谱峰位进行多点校正,采用峰面积平均数法生成量化特征色谱图,并匹配共有峰。

①坝体堆石区中部采用部分砂粒料填筑,范围为EL 895~940 m。本工程坝料分区充分利用了爆破堆石料力学性能好、抗剪强度高、休止角大、渗透系数大的特点,把它布置在堆石区上下游提高坝坡稳定性,布置在底部可加强坝体排水。坝体堆石区中部布置砂砾石区,充分利用砂砾石具有高压缩模量的特点,减少坝体沉降变形。

(2)若某一极大值与相邻极小值之差均大于(m1-m2)/2,那么K=K+1。

步骤3:循环步骤2得到K个聚类簇,对每个簇调用上述云变化算法进行概念提取,得到多个原子概念云模型。

步骤4:将原始样本数据依据步骤3所得的原子概念云模型做相应的概念软化分。

[3] 董涛,陈志鹏,金菊良,等.安徽省淮河流域农业旱灾风险正态云模型评估[J].东北农业大学学报,2017,48(01):42-48.

本研究发现,种植体植入后即刻及12周,直径为5.0 mm种植体的ISQ值显著高于直径为3.5、4.3 mm的种植体(P<0.05);说明种植体直径对植入后的稳定性存在显著影响。可能是受限于病例数和研究方法,本研究中种植体长度对稳定性的影响并不显著。Romanos等[12]认为,在HU值较大的区域宽径种植体可以获得更好的稳定性。 Shiffler等[17]研究发现,长度对种植体稳定性存在显著影响,同时认为下颌区种植体的稳定性普遍高于上颌区。本研究中,术前颌骨HU值下颌显著高于上颌,种植体植入后即刻及12周下颌区的ISQ值也显著高于上颌(P<0.05),与Shiffler等的研究结果相一致。

2.2 概念划分

根据1.1节的算法将论域空间的样本数据生成的原子云模型来表示概念,从实际数据分布中抽取概念,完成了定性和定量之间有效的转换,实现了对数据的软划分。依据云模型的跨度所表示出数据域可被相应概念接受的范围[15-16],对于数据样本点在[Ex-En,Ex+En]区域内的,可认为是完全属于该概念,而在云变换后的原子云模型中,对于相邻的交叠区域内的数据样本点归属关系,本文采用下列范数式度量值大小来表征,即:

基因是遗传变异的主要物质,是组成染色体的基本单元。本文采用实数编码的方式对排课基因进行编码。排课基因主要由教师、课程、教室、班级这四个基本要素构成,编码一共设置20位,x1i,j为教师编号,共4位,x2i,j为课程编号,共6位,x3i,j为班级编号,共4位,x5i,j共2位,作为特殊需求的预留位。

Di(x)=Exi*(1-μi(x))|i=1,2,…n

式中:Exi为第i个原子云模型表示概念的期望;μi(x)=e-(x-Ex)2/2y2是刻画样本数据值x对该原子云模型表示概念隶属度,其中y是以该原子云模型特征参数ExHe为期望和方差的正态随机数。依次计算出Di(x)的值,通过比较选取出最小值来判别该数据样本值归属的概念。

3 实 例

  

图3 样本数据频率分布

本文对农业部农业物联网技术集成与应用重点实验室2015年在黄山地区茶园所采集到28 806条、15个指标气象数据进行分析,选取其中的土壤湿度指标按照季度随机108条数据作为数据集进行实验。实验环境为Pycharm2017.1 IDE,算法用Python语言编程实现。样本数据频率分布如图3所示。

3.1 实验结果

依据2.1节改进的算法流程,首先对所得原始数据集如图4(a)所示,根据数据频率分布计算聚类簇K,然后利用K-Means++聚类算法发掘数据本身特性进行数据的初步划分。同时以人工的标准划分作为参考标准,将聚类算法结果与参考标准进行定量比较计算其误分率,如图4(b)标记所示为1.8%,其准确度已经满足初步划分数据的需求。此外当样本数据量的增大,聚类算法计算迭代次数增加,其误分率会越来越小。

参考文献

  

图4 数据初步划分效果

  

图5 原子云模型概念

  

图6 茶园土壤湿度泛概念

由上可知,本文的方法已经能够实现对农业领域气象数据土壤湿度指标值从底层、细度到原子概念软化的转变,并依据2.2节中的概念划分得到不同数据范围所表征的原子概念,进而为领域知识到高层、粗度概念泛化信息提取奠定基础。图6是基于本文方法实现的原子云模型概念作为泛概念树的底层节点,进行层次跃升获得较高抽象层上具有普遍意义知识的实验效果图。

3.2 实验分析

由于云模型本身定性、定量转换的优越性,能够较好地贴近原始数据的概念表征。将离散的样本点首先通过K-Means++聚类优化数据集,其次借助云变换以若干云模型为原子单位来展现其本质特征,此外本文利用多组数据集与传统峰值法进行对比实验,结果如表1所示。

2.1.1 整合优势养老资源 在养老资源方面,农村地区许多敬老院设施不达标,无法开展居家养老服务,但受“先期投入大,回报周期长”的影响,社会组织注入的积极性不高,因此,应加强政府资金扶持,加快推进敬老院转型升级,为农村居家养老服务的发展提供一定的机构支持;与此同时,结合当地实际,加强社区街道的组织引导,将各种形式的老年协会、社团等组织资源利用起来,依托一定的专业服务,利用长期闲置的支部活动室等硬件设施资源,积极开展居家养老服务。

步骤4:使用原始的样本数据集的分布函数f(x)减去云模型的分布函数fi(x)得到新的分布函数f(x),重复步骤1~步骤3,最后得到多个数据分布函数fi(x),且每个分布表示一个原子云模型,并计算其数字特征(Exi,Eni,Hei)。频率分布与原子云模型如图2所示。

 

表1 本文方法与峰值法结果对比

  

平均原子云概念数概念中心概念误差率/%平均执行时间/s峰值法云变换1823.9602.634.73本文方法2123.9751.902.09

4 结 语

农业领域知识中的不确定性和概念提取一直是难题。本文结合人类认知和解决问题过程,将大对象基于不同角度、不同层次细化为若干更小对象进行研究。基于高斯分布普适性理论分析聚类算法本质对数据集进行初始划分,在此基础上通过云变换对离散数据进行原子云模型概念选择和转换,解决农业领域数据的自动化的信息提取问题实现快速概念化,为概念跃升出更加清新的泛概念层次结构奠定前提,具有一定的现实意义。最后以实例对该方法进行了验证,进一步说明了本文方法是科学有效性的。此外,如何进一步提高农业领域复杂高、噪声敏感的大规模数据原子云模型概念提取的精度,以及优化不同原子云模型概念的合成与跃升过程,成为本文的进一步工作研究方向。

一是强化定额管理。将用水定额和清洁生产定额作为水资源论证、取水审批、用水计划制定、节水评估和用水审计等工作的重要依据。二是强化计划用水管理。对所有工商业取水户和市区500 t/月以上的自来水用水单位全面执行计划用水管理,用户年度用水计划经公示后由政府发文执行,并强化计划执行情况的监管力度。三是全面实施节水 “三同时”管理。通过水资源论证和取水许可验收环节严把节水“三同时”关,公共设施建设项目节水“三同时”工作已纳入行政服务中心归口管理。四是探索开展用水审计工作。2014年在2家企业开展了用水审计工作。此外,积极主持开展企业用水标准和节水导则的宣贯工作。

按照上述将数据根据其本质特性聚类后得到多个聚类簇,统计每个簇中的样本数据,并获得其数据的分布函数及分布图,调用云变化算法对每个簇进行原子云模型概念提取。每个聚类簇提取到的原子云模型概念期望曲线如图5所示。

[1] Curkendall L,Pape W,Dolan A.Method and system for agricultural data collection and management:US,US7321310[P].2008.

[2] Yan H,Wang Y.Mining multiple-level association rules in large databases[J].Journal of Dalian University of Technology,1999,11(5):798-805.

2.3师资力量雄厚。为做好巡讲课件,内容及方式的准备工作,依托区医院雄厚的师资力量,就面对农村群众讲什么,怎么讲以及课件制作、内容选择、表达方式作了讨论示范,要求宣讲员务必用老百姓听得懂的知识和喜欢的语言、故事普及合理膳食知识。通过言传身教、以身示范,培训了雄厚的师资队伍。

[4] 牛寅,张侃谕.基于云模型模糊推理的精准施肥机pH值调节过程控制[J].农业机械学报,2016(05):1-9.

[5] 张欣欣,薛金林.基于云模型的农业移动机器人人机合作路径规划[J].华南农业大学学报,2017(06):1-7.

[6] Lush G J.Probability theory[J].Nature,1978,272:107-107.

[7] Kahneman D,Tversky A.Subjective Probability:A Judgment of Representativeness[J].Cognitive Psychology,1972,3(3):430-454.

外交政策传统反映一国长期、稳定的对外行为的偏好与倾向性。缅甸人在确立中立外交政策的过程中,所体现出的不安全感、地缘心态、对大国的防范、对自身的定位与认识,是构成中立外交传统的基本要素,已内化为缅甸传统的政治文化,也是外界观察其外交政策趋势的基本维度。

解决压缩机出口气体过热通常有3种方法:减少启动时间以减少气体的循环时间、增大循环回路中气体的体积、增加冷却气体循环量。

[8] 蒋嵘,李德毅,范建华.数值型数据的泛概念树的自动生成方法[J].计算机学报,2000,23(5):470-476.

[9] 李德毅,刘常昱,杜鹢,等.不确定性人工智能[J].软件学报,2004(11):1583-1594.

在形势风云变幻的市场上,用户需求是一直在变化的。黄总认为,很多时候客户甚至并不知道自己需要什么样的产品解决方案。“由于大多数客户对物流设备制造业其实并不了解,他们并不知道市面上有什么样的产品解决方案可以解决他们遇到的问题。因此我们要明明白白地告诉客户,你的企业需要什么样的产品和服务,我们又能提供给你哪些方案。”除了为客户提供信息咨询及建议外,牧星还针对一些规模较小的客户提供了第三方仓储物流服务。“这就使得我们可以为客户提供更好的服务,进一步控制他们的物流成本,使得他们免除后顾之忧,将更多的精力放在企业发展上。”

[10] 张艳琼,邓三鸿.基于云变换的突发事件属性概念树的构建[J].现代情报,2016,36(2):46-52.

[11] 王树良.基于数据场与云模型的空间数据挖掘和知识发现[D].武汉:武汉大学,2002:76-88.

上述几篇论文,主旨在于思考当时社会生活中存在的问题,试图从理论上作出分析和回答。我讲到这样的经历是想表明:在哲学社会科学领域,学者们从理论上做学术研究,但我们研究的背景和对象是当今的现实。我们不能忽视现实生活中的迫切问题。面对这样的问题,如何从理论上提出、分析和解决,是我们的责任。这几项研究,无论是关于实践运动的基本规律,人的活动效率的历史发展,以及用实践批判、对实践批判和实践自我批判等问题,都是面对现实生活中的基本理论困惑,试图作出自己的回答。而这样的研究和回答,如果仅仅依靠原有的理论和方法无法作出,就要求我们进一步寻找新的理论和方法。这样做的结果,在思想理论上就是一种创新。

[12] Kapoor A,Singhal A.A comparative study of K-Means, K-Means++ and Fuzzy C-Means clustering algorithms[C]//International Conference on Computational Intelligence & Communication Technology,IEEE,2017:1-6.

[13] 李航.统计学习方法[M].北京:清华大学出版社,2012:18-20.

[14] Arthur D,Vassilvitskii S.K-Means++: the advantages of careful seeding[C]//Eighteenth Acm-Siam Symposium on Discrete Algorithms,SODA 2007,New Orleans,Louisiana,Usa,2007:1027-1035.

[15] 王国胤.Rough集理论与知识获取[M].西安:西安交通大学出版社,2001:58-73.

[16] 李兴生,李德毅.一种基于云模型的决策表连续属性离散化方法[J].模式识别与人工智能,2003,16(1):33-38.

 
杨阳,李绍稳
《洛阳理工学院学报(自然科学版)》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号