更全的杂志信息网

基于放牧轨迹数据的采食区域挖掘及可视化化析

更新时间:2009-03-28

轨迹数据挖掘是数据挖掘技术的一个新领域.随着GPS、卫星通信、无线追踪技术的不断发展与广泛应用,轨迹数据的获取越来越便捷,数据的完整性和精准度也越来越高.如何对已有的轨迹数据进行分析并挖掘出有价值的信息,成为当下研究的重点.

轨迹数据具有数据量大、维度高等特点,因此对其分析可以采用数据挖掘的方法.Lee等人[1]利用分类-聚类的方法,提出了停留点检测算法,通过轨迹划分发现公共子轨迹.陈锦阳[2]等提出了一种基于改进Hausdorff距离的轨迹聚类算法.何雯[3]等基于用户的历史轨迹数据,提出了一种基于支撑的规律轨迹挖掘算法并对用户的规律路径进行挖掘和提取.程海粟[4]针对人体识别算法中轨迹提纯与表达有效性不足等问题,提出了提取密度轨迹运动显著性值进行分析的方法.因为轨迹数据也具有时空特征和其他属性特征,可视化方法往往可以直观地发现轨迹数据所隐含的规律.Willems[5]等利用可视化船舶运动轨迹密度图来研究不同时区的活动密度.Hurter[6]等对飞机轨迹进行可视化分析,展示每架飞机的飞行高度,并支持多路径显示.

近年来,GPS(Global Positioning System)、GIS(Geographic Information System)等技术不断应用到草原畜牧业中,实现了放牧牲畜位置信息的实时采集、传输与分析[7].Yoshitoshi[8]等基于GPS技术手段,采用传感器设备提出了一种牛行走、休息行为判别的方法;Kawamura[9],Akasbi[10]等利用牧群的放牧轨迹,通过网格法计算每个单位格内单位面积牲畜的头数,进而得到放牧强度的分布;王萨仁娜[11]等利用空间分析技术研究绵羊轨迹行为的时空分布特征以及与草地之间的关系.

结合前人研究经验,本文采用数据挖掘算法和可视化方法相结合的方式对放牧轨迹数据进行研究,挖掘采食区域特征和草场分布情况,探索轨迹数据中各属性之间的关系,发现轨迹数据中隐含的时空规律.

1 研究概况

通过定位技术采集到的放牧轨迹数据是一系列的经纬度、采集时间、设备号等数据信息,由于卫星星历误差、电离层与对流层延迟、接收机制等客观因素,这些原始数据存在一定的误差.因此,如何对原始数据进行预处理,剔除误差较大的数据,将数据整合为合理的形式存储下来是本文研究的第一部分内容.利用DBSCAN算法对轨迹数据进行聚类分析,并结合速度阈值判断牧群釆食区位置是本文研究的第二部分内容.本文最后一部分的研究致力于轨迹数据的可视化展示,将分析后的数据结合基础图表、地图、热力图等方式直观地呈现出来,更好地反应出牧群轨迹数据中所隐含的信息.具体流程如图1所示.

在进行心理护理的同时为患者讲解疾病治疗方法与康复方法,为患者讲解抑郁症的引发原因、应对方法。告知患者对症状的发展与转归时的正确配合方式。定期组织患者开展院内的健康教育活动,以摄像、影片等方式指导其正确的康复方法,同时也可以播放一些关于心绞痛患者康复疗效案例,提高患者的治疗依从率以及对疾病认知的参与意识。为患者提供饮食与生活指导,饮食以清淡、富含维生素为主,保障每天蛋白质摄入充足性。

  

图1 整体研究方案流程图Fig.1 Flow chart of overall research program

2 放牧轨迹数据处理

ETL(Extract-Transform-Load)是构建数据仓库的重要一环,它描述了将数据从源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程.以Python语言为基础建立的自定义ETL框架,完成了数据的预处理,并将数据以星型模式存入MySQL数据库中.具体流程见图2.

(1)利用Aspen plus的Radfrac模块比较了不同萃取剂在相同条件下的分离效果,筛选出合适的萃取剂为乙二醇;

系统的操作界面是实现系统功能的媒介,显示了系统的结构和布局。系统界面设计的越合越科学,用户体验才更加方便。下面以主要以门诊界面的设计和实现来详细说明各功能模块的设计过程。

根据每小时出水量、耗电量确定型号。流量一般大于或等于出水量,耗电量一般大于或等于功率,由此推断设备的流量和功率,再根据井壁管内径、流量、功率确定设备型号。具体见上述内径、流量、功率推算法。

  

图2 数据处理流程图Fig.2 Flow chart of data processing

2.1 数据来源

定义3:速度阈值的方法检测停留点.由连续轨迹数据分别求得轨迹点的速度VT2,其中1≤…i≤…n,设置速度阈值,当速度VT2符合条件时,则Ti属于停留点,依次遍历连续轨迹中每个轨迹点进行划分直至序列结束.

羊群轨迹数据以等时间间隔向终端传输,利用速度阈值划分可以尽可能保留轨迹点更详细的运动信息,同时去除在数据定义时由于轨迹漂移所带来的误差.因此为速度阈值方法做出如下定义:

2.2 数据存储

GPS源端数据存储在Microsoft SQL Server 2008数据库当中,与本文所采用的MySQL数据库在兼容性上存在一定的问题,故采用逗号分隔值文件(CSV)作为“中间件”协助完成数据的加载.首先将原始数据全部输出到指定逗号分隔值文件中,然后利用ETL框架提取事实表与各维表所需数据信息,并将各部分数据信息存入到指定逗号分隔值文件中,最后将数据批量导入到MySQL数据库当中.第二次利用逗号分隔值文件的目的是为了将数据更快地导入到MySQL数据库当中,如果每新增一条数据就启动一次数据库连接并执行一次插入语句,就会降低程序执行效率且同时占用大量的内存.而将整理好的数据通过逗号分隔值文件打包作为“中间件”进行传输,只启动有限次数据库连接就可以完成所有数据的存储,实现数据的批量处理.具体流程见图3.

  

图3 数据批量处理图Fig.3 Data batch processing diagram

2.3 速度阈值划分法

羊群在放牧过程中可划分为奔跑、行走、停留三个状态,停留通常指静止或长时间在某个小范围内低速活动的状态,通过设定速度阈值筛选出停留状态的轨迹点,为DBSCAN算法模型的输入数据做准备是本部分的研究内容.

GPS设备选用内蒙古物通天下网络科技有限公司的WTG-1-01定位跟踪器,定位误差小于10 m,在记录时间间隔为5 min,每2 h上传1次数据的工作模式下,可正常工作45 d.每次为头羊戴上GPS设备对其进行GPS定位跟踪试验.本试验权衡记录轨迹和现实轨迹的拟合度与GPS设备续航能力两个因素,确定每隔5 min记录1次羊轨迹信息,记录了2015年6月份草场青草期至2016年6月份锡林郭勒盟东苏旗某牧户放牧羊轨迹信息并将采集的轨迹信息存入Microsoft SQL Server 2008数据库.

C_long=2πa

大孔树脂(D101,天津浩聚公司),柱层析硅胶 (200-300目,青岛海洋化工厂),Sephadex LH-20 (美国Pharmacia公司),MCI gel (75 μm~150 μm,日本Mitsubishi公司),ODS (40 μm~63 μm,日本Fuji公司),甲醇(色谱纯,美国Sigma公司),乙腈(色谱纯,美国Sigma公司),其余试剂均为国产分析纯。

定义2:轨迹点速度.任意3个连续的时间序列定位点如图4所示,其中,轨迹点T2T3T4的时间序列t2<t3<t4,则通过3点之间的距离与时间可求得轨迹点速度.

/(t2t3+t3t4)

(1)

研究区域位于内蒙古锡林郭勒盟东苏旗某牧户牧场,该牧场位于北纬114°34′,东经43°47′,海拔平均1 000 m.由克氏针茅(Stipa krylovii)为优势种构成的温带典型草原,土壤主要为典型栗钙土,草层高度10~30 cm,覆盖度+40%~60%,鲜草产量为1 289 kg/hm2. 每日研究数据获取由早上八点到下午七点,开始时牧民将羊群赶入牧场,结束时赶回畜圈,除去牧群在畜圈约11 h.

  

图4 连续时间定为点速度Fig.4 Point velocity for continuous time

根据如上定义,对试验区轨迹数据进行速度值计算.速度值在0~15 m·min-1之间的轨迹点约占总数的60%,经现场实地考察,羊群行走、奔跑速度约在15~60 m·min-1之间,停留状态的速度约在0~15 m·min-1之间,故速度阈值设定为15 m·min-1,接着对轨迹点进行划分,速度阈值划分步骤如下:(1)依据时间对连续轨迹点进行排序,形成连续轨迹序列;(2)计算每个轨迹点的速度;(3)设置速度阈值,依次将轨迹点速度与速度阈值比较,将小于速度阈值区间的轨迹点归入停留点集合C;(4)重复(1)~(3)步直至TR完全划分.

东南亚华族因其历史原因,在中华文化的认同上迷茫甚多,尤其是当今处于青少年时期的华裔子弟,其中不少不但不懂中文,而且对自己的族群亦毫无归属之感。华裔青少年是未来华人社会的中坚力量,培养他们的族群意识,促进他们传承中华文化,不仅是老一辈华人的责任,也是中国政府和广大华文教育工作者的历史使命。

由式(4)得到每秒经线长度为30.87 m,经面积公式换算,得到每秒经度覆盖面积约为2 993.8 m2.

3 釆食区数据挖掘

3.1 DBSCAN算法介绍

基于密度的聚类方法能够发现任意形状的簇,这类方法运用对区域密度的连通性来聚类,其中DBSCAN(Desity Based Spatial Clustering of Applications with Noise)为最典型的密度聚类方法.与其他聚类方法不同的是,DBSCAN将簇定义为密度相连的点的最大集合,在具有大量噪声点的复杂环境下能发现任意形状的簇.故本文采用DBSCAN聚类算法对羊群轨迹点进行聚类分析,算法流程如图5所示.

  

图5 DBSCAN算法流程图Fig.5 Flow chart of DBSCAN algorithm

相比Kmeans聚类分析算法,DBSCAN算法最显著的优点在于不用事先设定聚类参数k,DBSCAN算法可以识别该数据集中任意形状的簇,在对原始数据和聚类形式不了解的情况下,DBSCAN算法无疑是较好的选择.在DBSCAN算法流程中,MinPtsEps参数的选取决定了聚类模型的优劣程度,根据经验确定MinPts参数的取值,通过绘制K-曲线,寻找最优半径Eps.

3.2 聚类分析模型BSCAN

图6为聚类分析模型结构图,输入数据为经过速度阈值划分后的轨迹点经纬度信息,模型采用K-距离分析和可视化对比分析的方法确定最优Eps参数和MinPts参数.核心算法接收轨迹经纬度数据和输入参数进行聚类分析,得到聚集区域数据集Result,最终将Result数据集加载存储至数据库当中.

  

图6 模型结构图Fig.6 Structural diagram of the model

3.3 输入参数的选取

EpsMinPts作为DBSCAN算法中最重要的2个参数,前者定义为领域半径,后者定义为密度阈值.它们的选取往往决定了算法结果的好坏.如果MinPts不变,Eps取值过大,会导致大多数点都聚到同1个簇中,而Eps过小,则会导致1个簇的分裂;如果Eps不变,MinPts取值得过大,会导致同1个簇中点被标记为噪声点,而MinPts过小,则会导致发现大量的核心点.通俗来讲,这两个参数描述了如果以某个轨迹点为中心Eps为半径的范围内最少出现MinPts个其它轨迹点,则该轨迹点标记为核心轨迹点.

地球长半轴为6 378.137 km,标记为a,短半轴长6 356.752 km,标记为b.根据纬线长度式(2)得到地球纬线长度为40 075.016 km.

定义1:连续轨迹序列.设Ti为移动对象的第i个轨迹点,其中,Ti=(xi,yi,ti),xiyi分别表示经纬度坐标值,ti表示定位点时间,以TR={T1,T2,…,Tn}表示具有连续时间序列的一组定位数据.

我国社会组织存在非营利性、民间性不足的问题,但最根本的问题是社会组织的多元性不足。这种多元性不足,不仅体现在组织方式的多元性不足,更大的问题是体现在活动方式、活动领域的多元性不足以及活动领域的原创性不足。由于我国社会组织发展时间不长,大多数社会组织的活动领域、活动方式还处于追随阶段,而发现不同社会需求、关注不同人群需要的社会组织,早年像帮助自闭症儿童的星星雨教育研究所那样的社会组织还较为缺乏。而星星雨教育研究所正因为其发现并关注了特殊的社会需要,才得到国际国内社会的极大认可,其活动领域的国际领先性并非创始人为创新而创新、为超前而超前,而是创始人切身体会到、深切关注到了这一特殊需要。

(2)

由式(3)得到经线长度为40 007.833 km.

S_short=(a+b

(3)

“不仅是机械设备的零件坏了,我们会提供技术的帮助。有些大型农机车,几个小时就需要更换润滑油,我们都会带着技术人员为他们第一时间更换。”张文兴说。

Long=C_short/(360×60×60)

(4)

结合牧民放牧经验,1个牧群聚集区域的牲畜数在百头左右,MinPts参数的范围在10~30之间.

图7为MinPts参数分别取10,20,30的情况下所有点的K-距离曲线,去掉变化速度过快的点,对比3种取值下的K-距离取值发现,半径Eps的取值范围在0.002~0.02之间,分别选择0.002,0.01,0.023个K-距离值作为半径Eps.

  

图7 K-距离曲线Fig.7 K-distance curve

图8展示了在不同MinPts参数和Eps参数下,对试验区牧群的聚类效果.观察图8(a)发现,当Eps选取过小、MinPts选取过大时,容易出现大量的噪声点,其原因是本应成为核心点的数据因为Eps选取过小而无法形成核心点,而MinPts参数选取过大又导致本应形成1个簇的集合再次分裂.针对此情况,图8(c)调整了MinPts参数,但发现虽然出现了很多聚集区,但噪声点的数量仍旧很多,这证明了Eps参数选取0.002过小,无论怎么调整MinPts参数都不能获得较好的聚类结果.图8(b)的情况与之前恰好相反,只形成了1个簇,MinPts参数过小Eps参数过大导致了很多本应进行区分的聚集区被划分到了一起,所以这组参数也不是最佳选择.观察图8(d)的参数取值经过前几次的调整效果非常得不错,牧群轨迹被清晰地分成了3个聚集区域,而且噪声点的数量可忽略不计.因此,经过多次调整,最终选取MinPts参数值为20,Eps参数值为0.01,根据之前的公式计算得出其实际取值意义:以30 m为半径的区域内存在20个轨迹点即为核心点的判定标准.

  

图8 聚类结果对比Fig.8 Comparison of clustering results

4 多角度可视化

轨迹数据具有时空属性和很多其他属性,如速度、方向、数量,等.通过可视化方式将这些不容易被直观发现的属性展示出来,进一步挖掘出:牧群轨迹数据所隐含的信息,是本节研究的主要内容.

4.1 轨迹时空属性可视化

在进行时空属性可视化分析研究时,使用颜色对不同时间段的轨迹进行区分.如图9所示,用蓝色代表白天主要的放牧时间(9∶00~16∶00),用橙色代表傍晚(16∶00~19∶00),轨迹线的数量和密度表示了当前时间段牧群的活动强度.从图中可以看出:牧群在白天的主要放牧时间的活动范围较大,活动深度较广,而在傍晚时间的活动范围明显缩小,活动曲线密度明显降低.

e)处于边缘的部分分块赋予临时标号时需要做特殊处理,具体处理如下:分块p0,0不需要考虑块的左、上连通性,如果存在缺陷,则直接赋予临时标号1;第一行其他块区域只需要考虑块的左连通性;第一列其他块区域只需要考虑块的上连通性。

4.2 轨迹空间属性可视化

在牧群轨迹空间属性可视化研究方面,地图和热力图相结合是很好地表现方式,热力图能很好的反映出轨迹的空间聚集性,卫星地图则反映出周围的地形地貌情况.将聚类分析的结果直观地呈现出来,不仅如此,调整不同的时区对轨迹数据进行热力地图展示,发现牧群在该季度或者该年份的重点活动区域,判断牧群觅食区域是否迁移,并可结合草场盖度情况判断该聚集区域是否过牧.图10(a)为1 a内聚类结果的热力地图展示,可清楚地看到牧群轨迹被划分为3个区域;图10(b)为经过放大后的B聚集区域的热力地图展示.

  

图9 牧群1 d的轨迹分布图Fig.9 The trajectory distribution map of the herd

  

图10 热力地图展示Fig.10 Thermal map display

4.3 轨迹速度属性可视化

在经过速度阈值划分法求得轨迹点速度后,为了对牧群整体活动速度有一个直观的了解,图11(a)采用插值法对所有轨迹点的速度进行曲线拟合,并按照速度值的大小进行排序,可直观地看出牧群整体的速度水平.图11(b)在图11(a)的基础上将速度划分为12个区间,并展示出每个区间轨迹点的数量和比重,利用饼图和柱状图相结合的方式对轨迹点的速度属性做可视化展示.

  

图11 牧群轨迹速度可视化Fig.11 Herd speed visualization(a)牧群速度预览;(b)牧群速度分布及百分比

4.4 轨迹数量属性可视化

在轨迹数量可视化研究方面,通过将散点图与雷达图相结合的方式来展现某一时刻各牧群聚集区域位置和数量的相对关系,如图12所示.牧群聚集区的轨迹点信息可由聚类挖掘模型得到,散点图反映了牧群的具体位置,但无法得知聚集区内轨迹点数量;雷达图弥补了这一点,能精确地反映每个聚集区中牲畜的数量.该组合图适用于对当天某一时刻的轨迹点进行分析.对比不同时刻的聚集情况,了解牧群觅食习惯,分析牧群在某个时段某个聚集区的活动强度情况.

  

图12 牧群聚集区域及数量展示Fig.12 The display of herd gathering area and its number

5 釆食区准确性分析

由于目前鲜有基于放牧轨迹的挖掘算法,试验无法与其他方法进行比较,因此只考虑本文所提出方法的准确性.经过实地考察,图10(a)中B区域对应到实际牧区为图13-3所示的饮水区域,图10(a)中A,C区域分别对应图13-1,13-2所示的觅草区域.为对比觅草区域与普通草场的差异,取试验区草场中非釆食区实地图像13-4,经对比发现,图13-1与图13-2的草场长势明显优于图13-4,从而进一步证明了分析的准确性.

2002年11月,党的十六大提出全面建设小康社会的战略目标,强调要把可持续发展放在突出位置,坚持保护资源和环境的基本国策。2003年召开的中共十六届三中全会进一步明确了科学发展观,要求“五个统筹”(城乡发展统筹、区域发展统筹、经济社会发展统筹、人与自然和谐发展统筹、国内发展和对外开放统筹)推进各项事业的改革和发展。可持续发展战略、科学发展观等的提出以及相关环境保护原则和具体措施的落实,标志着我国生态文明建设又迈出具有里程碑意义的一步。

  

图13 实地牧区图Fig.13 Field pastoral map

6 结论

近几年,草原畜牧业信息化发展趋势呈直线上升,放牧轨迹数据作为其中重要一环,拥有丰富的研究价值.本文采用数据挖掘算法与可视化方法相结合的方式对放牧轨迹数据进行分析,不仅从理论上提出了由原始数据处理到聚类分析再到可视化分析的一整套研究方案,还运用实际数据证明了方案的准确性和可行性,为牧民了解牧群习性提供了技术支持,对草原畜牧业信息化发展起到了推进作用.在未来的研究中,可从2个方向继续深入:一是对算法的改进,降低噪声点误差、优化参数选取;二是继续深入研究可视化技术,力求更好地表现出轨迹数据中更多相关属性.

参考文献

[1] Lee J G, Han J, Li X, et al. TraClass : trajectory classification using hierarchical region-based and trajectory-based clustering[J]. Proceedings of the Vldb Endowment, 2008, 1(1):1081-1094.

[2] 陈锦阳, 宋加涛, 刘良旭. 基于改进Hausdorff距离的轨迹聚类算法[J]. 计算机工程, 2012, 38(17): 157-161.

[3] 何 雯, 李德毅, 安利峰, 等. 基于GPS轨迹的规律路径挖掘算法[J]. 吉林大学学报(工学版), 2014, 44(06): 1764-1770.

[4] 程海粟, 李庆武, 仇春春. 基于改进密集轨迹的人体行为识别算法[J]. 计算机工程, 2016, 42(08): 199-205.

[5] Willems N,Van De Wetering H,Van Wijk J.Evaluation of the visibility of vessel movement features in trajectory visualizations[J].Computer Graphics Forum,2011,30(3):801-810.

[6] Hurter C,Tissoires B,Conversy S. FromDaDy:spreading aircraft trajectories across views to support iterative queries[J].IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1017-1024.

[7] Fogarty E S, Manning J K, Trotter M G, et al. GNSS technology and its application for improved reproductive management in extensive sheep systems[J]. Animal Production Science, 2015, 55(10): 1272-1280.

[8] Yoshitoshi R, Watanabe N, Kawamura K, et al. Distinguishing cattle foraging activities using an accelerometry-based activity monitor[J]. Rangeland Ecology & Management, 2013, 66(3): 382-386.

[9] Kawamura K, Akiyama T, Yokota H, et al. Quantifying grazing intensities using geographic information systems and satellite remote sensing in the Xilingol steppe region, Inner Mongolia, China[J]. Agriculture, Ecosystems $ Environment, 2005, 107(1): 83-93.

[10] Akasbi Z, Oldeland J, Dengler J, et al. Analysis of GPS trajectories to assess goat grazing pattern and intensity in southern Morocco[J]. The Rangeland Journal, 2013, 34(4): 415-427.

[11] 王萨人娜, 韩国栋, 张圣微, 等. 基于3S技术的绵羊牧食行为与草地环境相互作用研究[J]. 中国生态农业学报, 2015,23(7): 860-867.

 
李琦,崔晓,李宝山
《内蒙古科技大学学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号