更全的杂志信息网

网格空间资料探勘应用于犯罪预测之研究

更新时间:2009-03-28

一、绪论

近年来数字科技的广为应用,开启了人类崭新的生活方式,数字科技与信息系统紧密地维系着我们每一天的活动。人类的活动内容及其轨迹,直接或间接地留存于数字科技工具或信息系统的程度也因而日益提升。例如,自动收、付款设备记录交易的时间、地点与内容;电子商务系统记录购物的时间、项目数量与付款方式;各种安全管理与监控系统(如路口监视器系统及门禁管制系统),也随时记录人类的活动轨迹。此外,在通讯科技整合之后,人们逐渐以计算机网络作为最主要的媒体,除了悠游于网络的虚拟世界外,更通过交互式的社群媒体,如Facebook、Twitter及Plurk等,形成虚拟社区。传统流于无形的社交关系与内容,已逐渐具体地留存于社群媒体系统中。凡发生过,必留下电子轨迹的大数据(bigdata)时代已悄然来临。

人类生活所留下的轨迹资料,一般称之为大数据、巨量数据或海量数据。[1]大数据被麦肯锡誉为下一个亟待开发的领域,以提升产业创新能力、竞争力及生产力。[2]善用信息科技强大的数据处理、统计分析、及探勘功能,快速有效地分析隐含于大数据的知识,因时因地制宜地提供决策所需的信息,不但有助于提升决策的效率与效益,而且经由趋势分析与模式归纳学习,可以更进一步掌握未来的发展趋势,预拟因应方案。

在翻译的过程中,为使译本在语法、句法和语言形式上更加贴合译语的语言习惯,同时增加必要信息以弥补译语读者的认知语境缺失。新闻标题翻译中一般仅补充必要词语或信息,且字数精炼。

犯罪是多面性且错综复杂的法律事实与社会现象。犯罪预测乃运用科学方法,依据现有的环境数据和犯罪数据,对可能影响犯罪的各种相关因素进行研究分析,预测未来特定时空范围内可能出现的犯罪现象、结构及发展趋势等,作为制定犯罪预防战略与战术的科学依据。传统的犯罪预测方法主要包括汇整专家的经验智慧作为预测犯罪依据的专家预测法,以及经由探讨社会之犯罪现象、归纳犯罪原因与因果关系之假设、建立研究架构、再辅以问卷调查及统计分析等,建立犯罪预测模型的因素分析法。传统的犯罪预测方法又称为假设驱动(hypothesis driven)的研究方法。近年来由于大数据累积广度与深度与日俱增,数据驱动(data driven)的研究方法已受到极大的重视。[3]~[17]运用大数据预测犯罪并据以制定犯罪预防战略和战术措施,已有案例证实可以有效减少31%的连续犯罪及15.4%的暴力犯罪。[18]例如通过分析可以发现枪击事件的发生率与邻近酒吧、夜店、酒类商店及快餐店等场所,呈现高度的正相关;另外,通过时间系列分析,也可发现枪击事件有从一个犯罪热点转移至另一犯罪热点的形态。

④水电站收益期长,为清洁能源,国家将给予大力支持。同时随着国民经济的发展,电价仍有进一步提升的空间,石门水电站的经济效益将会得到充分发挥。

大数据在警察的应用层面,大致上可以分为两个层面:寻找可以验证假设的数据以解决目前所遭遇的犯罪问题,例如,犯罪侦查从案发后的现场电子轨迹重建犯罪的过程;经由分析大数据进而预先发现问题及寻找因应作为,例如,预测犯罪可能的发生时间与地点,进而采取预防措施。[19]第一个层面,警察组织已累积了许多经验智慧,并有许多成功的实例与成果。第二个层面,在进入大数据时代才渐渐受到重视,是一个极具发展潜力的领域。近年来台湾已逐渐应用大数据协助警察执法工作,例如,刑事局的刑案知识库系统、警政云的规划与建设、台中市的科技防卫城及新北市的智慧城市计划等。仍以第一个层面为主,即经由查询个案相关大数据协助破案。

台湾警察机关自1970年代起陆续将各项警政资料(包括治安、交通、犯罪侦查等相关数据)建立信息系统,[20]目前已累积数量庞大的治安数据。本研究搜集整理台湾新北市警察局刑案纪录数据,运用网格分析法,并以数据探勘技术进行实验,探讨运用大数据预测犯罪之效能。

才拿到驾照的那阵子,最怕过红绿灯。那次把车子停在左拐道上等绿灯放行。这里红绿灯的时间设置,左拐竟然只有20秒。前面的十几辆车子,分了两次才渐次通过。我的车停到了最前面,绿灯亮了,一加油门,车子却嘎嘣熄火,这是手和脚动作不协调所致。这种新手过红绿灯时容易熄火的车子,使用的是手动档。现在新出厂的各种品牌的车子,一般都换上了自动档,这个问题,便基本可以避免。但是,过红绿灯时需要比正常的道路行驶有对路况更准确的判断,有更多的谨慎和机敏,则是无论驾驶何种车子,无轮驾龄长短,都必须做到的。

二、文献探讨

(一)空间环境与犯罪之关系

随着经济成长及城市化的快速发展,居住人口不断往都市迁移,许多原本居住于乡村或其他城市的人口,因寻求工作或其他因素迁移进入都市,形成人口稠密的都市生活形态。人口流动间接造成犯罪相关的社会问题。犯罪学领域的芝加哥学派,以生态学的观点分析犯罪,探讨犯罪率与环境因素的相互关系。Park与McKenzie提出同心圆模式的都市发展概念,主要探讨都市各种不同的自然地区,如商业区、住宅过渡区、工人居住区、住宅区及通勤区等。居民会因社会经济地位的改善,迁徙至外层的自然地区,并由新的居民取代。[21]另外,Shaw与McKay以前述同心圆模式研究不良少年的犯罪率。发现青少年的犯罪率较高的地区,为商业区与居住区的中间住宅过渡区。主要是由于移民集中、拥挤及低收入等社会环境促成偏差行为。而在稳定小区中有较低的青少年犯罪率。[22]综合而言,空间环境因素与犯罪之间有密不可分的相互关系。

由上表看出,在2011年和2012年“双十一”销售额以翻数倍的速度增长;其次,虽然从2011年到2017年“双十一”销售额增长速度在不断减慢,但相对于上百亿上千亿的销售额基数来讲,百分之四五十的增长速率并不是一个不可观的数字,所以,“双十一”已然成为我国名副其实的全民购物盛宴。

(二)网格分析方法

Nelson等人利用区域密度图,呈现区域中不同商家被窃盗情形,并以二维网格(grid)方式呈现,借此打破行政区域之限制,且警方也以网格的分析方法来重新规划及配置警力。[23]Wang参考城市中街区边长选择100米作为网格的边长,使切割出的网格数量和其预测目标住宅窃盗数量约略相同,以最小化空间聚合的讯息损失。[24]黄友岳考虑时间及空间对于找寻犯罪特征值的影响,将网格边长设为100米至1 000米,并从实验分析寻找最好的长度作为网格边长。[25]

自我教育是指个体根据需求,有目的、有计划地对自我提出要求,把自我作为认识、驱动、调控与改造的对象,为提高和完善自我而进行的一种教育活动。自我认识、自我驱动、自我践行、自我调控、自我实现是自我教育的五要素,这些要素之间是相互联系、互为作用的动态合作关系。自我教育作为一种自主学习的教育方式,具有其他教育形式不可替代的作用——让受教育者从学习客体转变为学习主体。在提倡终身教育的时代背景下,自我教育是现代人储备知识、提升能力不可或缺的一种教育与学习方式。

(三)网格犯罪预测方法

Chung-HsienYu将研究目标城市切分为:24×20个(边长约805米)及41×40个(边长约402.5米)等两种不同分辨率的二维网格。网格的犯罪数据包括逮捕、商业窃盗、掳人勒赎、汽车窃盗、及住宅窃盗等,并以月为单位汇整统计犯罪数据。另外,Chung-Hsien Yu也分别以边长800×800米、600×600米及450×450米的二维网格,并以逮捕、商业窃盗、勒索、汽车窃盗及911报案电话和街头抢夺案件数,作为自变量预测网格之住宅窃盗。结果显示800米边长的网格拥有较高的准确率及F1值。[26]直观而言,选择较小的网格有较佳的分辨率,而较大的网格则有助于提升预测的准确率。

(四)经验法则犯罪预测方法

警察机关通常将犯罪案件通过制图点绘于地图,不同类型的案件则以不同的颜色呈现,形成治安斑点图。治安斑点图中点密度高的地方,代表犯罪案件发生较为频繁的犯罪热区。经验法则犯罪预测方法乃以犯罪斑点图为基础,预测将来犯罪再度发生的可能性。以图1为例,经验法则犯罪预测方法以网格gk在期间t的整体犯罪情形,预测网格gk在期间t+1发生犯罪的可能性。本研究将以经验法则的犯罪预测方法作为比较基准,探讨运用大数据分析预测犯罪的效能。图1中G为辖区地理空间地图,gk为G的一个网格。

  

图1 经验法则犯罪预测示意图

三、网格资料探勘犯罪预测

首先运用GIS软件将研究目标城市的地理空间切分为边长相同的网格,并统计每一个网格对应区域在某一期间(例如某一个月)内相关犯罪案件发生数作为该网格的犯罪形态特征。网格并依相关犯罪案件的发生数区分为热点或冷点。本研究将对应区域在某一期间发生过一件以上毒品犯罪的网格归类为毒品犯罪热点,否则归类为毒品犯罪冷点。此外,如网格之对应区域在某一期间内皆无相关犯罪发生,则将该网格归类为犯罪冷点。

(一)定义网格犯罪形态特征

运用网格资料探勘预测犯罪之技术,主要包括定义网格犯罪形态特征,设计网格犯罪预测向量,以及选定预测犯罪使用的历史数据长度等三部分,分述如下:

以本文研究的毒品犯罪为例,相关的犯罪为:毒品、一般窃盗、汽车窃盗、机车窃盗、住宅窃盗、恐吓取财、诈骗及伤害等8种。网格犯罪形态特征定义说明如下:首先将研究目标城市的地理空间地图G切分为p个网格:g1,g2,g3,…,gp,即

 

统计每一个网格gk相对应的区域在期间t,上述8种犯罪案件发生数作为该网格在期间t的犯罪形态特征,以gk,t表示,则

gk,tT=1={fk,t,1,fk,t,2,fk,t,3,…,fk,t,8},其中

fk,t,1为网格gk相对应的地理空间在期间t之毒品案件发生数,

fk,t,2为网格gk相对应的地理空间在期间t之一般窃盗案件发生数,

你5岁时开始学象棋,还记得2015年参加南京市“金陵杯”象棋比赛吗?那次高手如云,且你年龄上也不占优势,最痛苦的是第一局你竟然输了。你有点失落,爸爸跟你说:“朗朗没事,只要下出自己应有的水平就行了!坚持就是胜利。”听了爸爸的话,你卸下包袱,过五关,斩六将,一路厮杀,超常发挥,结果获得了第二名的好成绩。站在领奖台上,你无比感慨,也记住了爸爸的话:坚持就是胜利!

fk,t,3为网格gk相对应的地理空间在期间t之汽车窃盗案件发生数,

依此类推,

fk,t,8为网格gk相对应的地理空间在期间t内之伤害案件发生数。

第三组gk,m+2T=m:预测f'k,m+3,1,以fk,m+3,1验证,

样本按“1.3”项试验条件进行气相色谱质谱分析,对应总离子流色谱图如图1所示。从图1可以看出,试验用气相色谱条件满足紫椴鲜花挥发性成分的分离要求。经气相色谱-质谱联用仪分析,用NIST05数据系统检索,分离出55个色谱峰,最终鉴定44种成分,占总面积的96.71%。挥发性成分分析及面积归一化法定量结果见表1。表1 数据说明,紫椴花主要挥发性有机成分有芳樟醇(34.37%)、β-苯乙醇(31.37%)、β-顺式-罗勒烯 (12.03%)、丁香醇A(2.00%)、反式-α,α-5-三甲基-5-乙烯基四氢化-2-呋喃甲醇(3.59%)等,占挥发性物质总量的83.36%。

例一:如在某一期间t,网格gk相对应地理空间之犯罪案件发生数为毒品犯罪2件、一般窃盗犯罪3件、汽车窃盗犯罪0件、机车窃盗犯罪2件、住宅窃盗犯罪0件、恐吓取财犯罪1件、诈骗犯罪4件、伤害犯罪0件,则gk,tT=1={(2,3,0,2,0,1,4,0)}。

如定义犯罪形态特征的历史数据长度为m(m≥2),则把网格在期间t的犯罪形态特征与过去连续m-1个期间的犯罪形态特征合并,作为网格gk的在期间t的犯罪形态特征,即

 

(二)设计网格犯罪预测向量

定义网格的犯罪形态特征之后,我们可以整理网格犯罪形态特征的历史数据,设计网格犯罪预测向量。假设历史数据的期间以一个月为单位,且使用历史数据之期间数为1(即T=1),则网格gk在期间t预测下一个期间t+1犯罪的发生数,以毒品犯罪为例,预测向量设计如下:

 

其中gk,t为网格gk在期间t的犯罪形态特征,fk,t+1,1为网格gk在期间t+1毒品犯罪的发生数。

本研究首先从模型1出发,只加入控制变量性别和年龄来看城市居民和外来迁移人口的社会距离问题。从中我们可以发现,性别对于社会距离的影响并不显著,相比之下,年龄更具有显著性,并且呈现出随着年龄的增长社会距离被拉大的关系,简单地说,年龄越大的人与外来迁移人口的社会距离越远。

如在期间t以网格连续m个期间(含期间t)的历史资料,预测网格的在期间t+1犯罪的发生数,以毒品犯罪为例,预测向量定义为:

区内外高校对“报表说明数据分析不到位;无用分析;不能正确运用决算分析的各种方法”等5个方面高校部门决算报表分析文字说明存在的问题认知数据对比分析如表7所示。

 

其中fk,t+1,1为网格gk在期间t+1的毒品犯罪发生数。

第二组gk,m+1T=m:预测f'k,m+2,1,以fk,m+2,1验证,

例二:假设例一中的网格在第一个期间、第二个期间及第三个期间的犯罪形态特征分别为:

 

当T=1时,以网格gk第一个期间毒品犯罪形态特征,预测第二个期间毒品犯罪发生数的预测向量为:

 

与此类似,以网格gk第二个期间毒品犯罪形态特征预测第三个期间毒品犯罪发生数的预测向量为:

 

当T=2时,以网格gk第一个期间及第二个期间毒品犯罪形态特征,预测第三个期间毒品犯罪发生数的预测向量为:

 

(三)犯罪预测历史资料长度选定

假设所搜集的历史资料长度(期间数)为L,即t=1,2,3,…,L,如犯罪预测使用的历史数据期间为m个单位,即T=m,以毒品犯罪为例,针对网格gk,总计可设计L-m组实验:

第一组gk,mT=m:预测f'k,m+1,1,以fk,m+1,1验证,

本次研究中,观察组患者复发率为17.95%(7/39),进展率为2.56%(1/39);对照组患者复发率为23.08%(9/39),进展率为5.13%(2/39),两组间比较无明显差异(P>0.05),无统计学意义;同时观察组患者不良反应发生率为23.08%(9/39);对照组患者不良反应发生率为20.51%(8/39),两组间比较无明显差异(P>0.05),无统计学意义。综上所述,针对于中高危非浸润性膀胱尿路上皮癌患者的治疗,吉西他滨以及表柔比星均能够降低患者两年内的复发率,但部分患者会存在不同程度的不良反应,无法改变病情的进展,临床上可推广使用。

T=1表示用以定义犯罪形态特征的历史数据期间数为1。

依此类推,

第L-m组gk,L-1T=m:预测f'k,L,1,以fk,L,1验证。

例如,T=1时,可以第1月份的网格犯罪形态特征预测第2月份的犯罪发生数、以第2月份的网格犯罪形态特征预测第3月份的犯罪发生数,…,及以第L-1月份的网格犯罪形态特征预测第L月份的犯罪发生数;T=2时,可以第1月份及第2月份的网格犯罪形态特征预测第3月份的犯罪发生数、以第2月份及第3月份的网格犯罪形态特征预测第4月份的犯罪发生数,…,及以第L-2月份及第L-1月份的网格犯罪形态特征预测第L月份的犯罪发生数;依此类推。

四、实验设计与结果分析

(一)实验资料

1.算法预测效能分析

  

图2 台湾新北市2012年—2015年毒品相关犯罪案件分布情形

(二)网格大小及历史数据期间选择

考虑案件数量及环境因素对本研究预测模型效能的影响,将网格大小设定为400×400及800×800(单位:米)两种大小,进而比较其预测效能。本研究为减少数据集大小及专注于热点之预测以提升演算之效率,除了1NN及LC-1NN因算法需求外,在执行数据探勘前,将未发生上述8种犯罪之网格去除。此外,去除空网格后,毒品犯罪冷、热点的比率约为1.789:1。为使分类器在学习阶段能对冷、热点两种类别平均学习,避免分类器偏好于单一类别,造成预测准确度下降,在进行探勘之前,先以SMOTE(Synthetic Minority Oversampling Technique)方法,将数据集调整为冷、热点分布平衡之数据集,以避免模型过适(overfitting)问题发生。

本研究数据期间以月为单位,采用T-month法,即以前T个月的相关案件数据,经由数据探勘预测下一个月目标案件的发生数。如果预测下一个月之毒品犯罪发生数大于等于1时,网格即归类为毒品犯罪热点,否则归类为毒品犯罪冷点。

(三)预测(分类)算法

本研究使用H2O数据探勘套件,内涵Random Forest、Deep Learning及等分类算法。其中Deep Learning是基于类神经网络反馈,使用反向传播方式对梯度下降法进行训练。每一层的神经元将上一层的神经元加总后,运用曲正切(Hyperbolic Tan,TanH)激活函数(activation function)进行非线性转换。

另外最邻近邻居算法(1Nearest Neighbor,1NN)及加上空间限制之最邻近邻居算法(Location Constraint 1Nearest Neighbor,LC-1NN),则自行撰写程序代码,在R语言3.32版本环境中进行运算。相较于1NN算法从所有的网格中找寻犯罪形态特征与预测目标网格犯罪形态特征最相似的网格作为预测之依据,LC-1NN则从预测目标网格的摩尔邻居(Moore Neighborhood)中找寻犯罪形态特征与预测目标网格犯罪形态特征最相似的网格作为预测之依据。

(四)效能评估与比较

本研究统计各算法,在T=1,2,3,…,10等十种情形下,预测正确及不正确之网格数量,以分类混淆矩阵(confusion matrix)显示,如表1所示:

 

表1 分类混淆矩阵

  

预测实际Positive Negative Positive Ture Positive False Negative Negative False Positive True Negative

名词定义如下:

并依混淆矩阵的内容计算各算法的查准率(precision)、查全率(recall)、F1值及准确率(accuracy),以比较不同算法的预测效能。其公式如下:

2.True Negative(简称TN):预测为Negative且预测准确。

3.False Positive(简称FP):预测为Positive但预测错误。

4.False Negative(简称FN):预测为Negative但预测错误。

1.True Positive(简称TP):预测为Positive且预测准确。

 

另外,现行警察机关对于犯罪热点之定义系以一个期间内辖区案件发生数大于阀值者(通常为1),便将其设定为犯罪热点。并依经验法则预测下一个期间之案件发生数,作为下一期勤务派遣规划之依据。因此,本研究以现行警察机关统计与预测犯罪热点之经验法则预测方式作为比较基准(baseline),比较分析各种算法之预测效能。

(五)实验结果与分析

本研究以新北市刑案记录数据为数据源,参考破窗理论及新北市警政统计年报新北市犯罪概况,选择毒品作为本研究的预测目标,并采用一般窃盗、汽车窃盗、机车窃盗、住宅窃盗、恐吓取财、诈骗、伤害等7种相关犯罪及毒品犯罪本身定义毒品的犯罪形态特征。资料期间为自2012年至2015年共36个月,原始数据皆包括案件发生位置(经、纬度)及案发时间等字段。资料的分布情形如图2所示。

本研究使用Random Forest、Deep Learning、1NN及LC-1NN等分类算法,并使用T-month法(T=1,2,…,10),在分辨率以800×800(单位:米)作为网格边长,可得到最佳的预测效能。上述五种算法的查准率、查全率、及F1调和值详如表2、表3及表4。

(2)在进行避雷保护线设置时,避雷保护性的高度必须要控制在规范设计要求内,以将比例线的防雷保护作用充分进行发挥。避雷保护线确定后,需要对避雷线的搭接长度进行相应确定,且焊接避雷线时需要按照技术要求进行焊接,防止出现虚焊与脱落的情况。对于各个电气设备则需要做好接地处理操作,且需要对配电箱的接地位置进行明确标注,以避免出现各种不规范误触操作。

 

表2 分类算法查准率之比较

  

算法T值ve Bayes 1NN LC-1NN T=1 0.66 0.73 0.69 0.72 0.74 T=2 0.62 0.70 0.64 0.63 0.72 T=3 0.61 0.67 0.62 0.61 0.72 T=4 0.60 0.66 0.60 0.59 0.79 T=5 0.60 0.65 0.61 0.58 0.74 T=6 0.61 0.64 0.61 0.58 0.74 T=7 0.61 0.62 0.59 0.58 0.80 T=8 0.61 0.61 0.59 0.58 0.73 T=9 0.60 0.61 0.60 0.59 0.69 T=10 0.60 0.61 0.58 0.58 0.71平均 0.61 0.65 0.61 0.60 0.74 Random Forest Deep Learning Na

 

表3 分类算法查全率之比较

  

算法T值ve Bayes 1NN LC-1NN T=1 0.80 0.63 0.71 0.60 0.57 T=2 0.83 0.66 0.78 0.63 0.59 T=3 0.83 0.68 0.79 0.62 0.60 T=4 0.84 0.69 0.81 0.61 0.62 T=5 0.83 0.68 0.81 0.58 0.60 T=6 0.83 0.68 0.80 0.57 0.58 T=7 0.83 0.67 0.82 0.55 0.64 T=8 0.84 0.68 0.83 0.55 0.61 T=9 0.84 0.69 0.81 0.55 0.58 T=10 0.85 0.68 0.83 0.54 0.59平均 0.83 0.67 0.80 0.58 0.60 Random Forest Deep Learning Na

 

表4 分类算法F1值之比较

  

算法T值ve Bayes 1NN LC-1NN T=1 0.71 0.67 0.69 0.65 0.64 T=2 0.70 0.68 0.70 0.62 0.65 T=3 0.67 0.65 0.61 0.62 0.65 T=4 0.70 0.67 0.68 0.60 0.69 T=5 0.70 0.66 0.69 0.58 0.66 T=6 0.70 0.65 0.69 0.57 0.65 T=7 0.70 0.64 0.68 0.56 0.71 T=8 0.70 0.64 0.69 0.56 0.66 T=9 0.70 0.65 0.69 0.56 0.63 T=10 0.70 0.64 0.68 0.56 0.64平均 0.70 0.65 0.68 0.59 0.66 Random Forest Deep Learning Na

除了LC-1NN算法外,Random Forest、Deep Learning、及1NN等算法,在T值接近1时,有较高的查准率。其意义为在T值接近1时,这些算法误将毒品犯罪冷点预测为毒品犯罪热点的FP值较小。而这些算法在T值接近10时,有较高的查全率。其意义为在T值接近10时,这些算法误将毒品犯罪热点预测为毒品犯罪冷点的FN值较小。查准率高则据以派遣警力的犯罪预防工作,过度派遣程度较小。查全率高则遗漏犯罪热点的比率较小。而根据调和查准率及查全率的F1值,Random Forest及1NN算法在T=1较能兼顾查准率及查全率,而Deep Learning及算法在T=2较能兼顾查准率及查全率。LC-1NN则在T=7时比其它分类算法拥有较佳的预测效能,查准率、查全率及F1值分别为0.80、0.64及0.71。

以T=1,2,…,10的F1平均值而言,算法预测效能的优劣依序为:Random Forest,LC-1NN,Deep Learning及1NN。此外,本研究算法的平均效能,在查准率、查全率及F1值均明显大于比较基准。相较于经验法则的预测方法,预测效能最佳的Random Forest算法,查准率约提升14个百分点,查全率约提升60个百分点,F1值则约为经验法则的两倍,如图3所示。

  

图3 算法预测平均效能之比较

另外,Random Forest之F1值优于其他算法,分析因该算法的分类方法是经由产生多个的判定树,并输入随机抽样的数据,最后再以投票方式来决定一个样本的分类,因此其预测效能较为平稳。

供给侧改革的中心任务是推进创新以及提高全要素生产率,所以,高校必须充分利用自身科研资源优势,促使各种应用性和基础性研究及其成果集约化,以实现创新驱动发展战略相关任务。同时,高校应立足于地区重点行业企业以及国家战略发展需要,积极打造高校、企业、科研单位以及政府部门四方合一的产学研协同创新机制,以致力于在技术创新和科研创新等方面获得巨大突破[4]。

2.LC-1NN与1NN预测效能比较。考虑地缘关系有助于提升算法的预测效能。如图4所示,LC-1NN在准确率、查准率、查全率及F1值的预测效能皆优于1NN。

  

图4 LC-1NN与1NN算法平均预测效能之比较

3.网格大小与预测效能。本研究亦比较两种(面积)大小的网格400×400、800×800(单位:米)。实验结果显示网格大小与预测效能成正比,与直观“小的网格有较佳的分辨率,大的网格有较佳预测的准确率”相符。T值(横轴)大小的影响则较无一致性,如图5及图6所示。虽然网格越大预测效能越好,但是对于执法单位的运用价值,网格越大对于勤务规划、派遣越无参考价值。执法单位必须在网格大小与预测效能间权衡,选择可接受的预测效能及适当的网格大小,针对犯罪热点加派警力。

  

图5 网格大小查准率比较

  

图6 网格大小查全率比较

4.行政区与网格之预测效能。另外,因为执法单位及公务机关规划责任区均以行政区为基础,并据以作为派遣警力之基础。本研究也选择新北市行政区(里)之面积接近于400×400与800×800(单位:米)之土城区、新庄区、中和区、板桥区及三重区等行政区,进行犯罪预测效能实验。实验结果依行政区里面积由大至小、由左至右顺序排列如图7所示。除土城区及新庄区外,其他区大致符合“网格大小与预测效能成正比”的直观效果,有部分甚至优于网格分析方法。预测效能较好的邻里区大部分为面积大小较为接近,分布较为均匀的居住或商业区。预测效能较差的土城区及新庄区邻里则面积大小不一,辖内环境郊区及市区差异亦较为明显。

  

图7 行政区、网格效能比较

五、结论

本研究搜集台湾新北市刑案记录数据,运用网格分析方法与大数据探勘技术,分别以Random Forest、LC-1NN、Deep Learning、及1NN等算法进行犯罪预测实验,并将其犯罪预测效能与经验法则进行比较分析。

本研究算法的平均效能,在查准率、查全率及F1值均明显大于经验法则的预测方法。相较于经验法则的预测方法,预测效能最佳的RandomForest算法,查准率约提升14个百分点,查全率约提升60个百分点,F1值则约为经验法则的两倍。在算法的比较方面,以T=1,2,…,10的F1平均值而言,算法预测效能的优劣依序为:Random Forest,Learning,及1NN。 Random Forest、Deep Learning、及1NN等算法,在T值接近1时,有较高的查准率;而在T值接近10时,有较高的查全率。查准率高则据以派遣警力的犯罪预防工作,过度派遣程度较小;而查全率高则遗漏犯罪热点的比率较小。此外,Random Forest及1NN算法在T=1较能兼顾查准率及查全率,而Deep Learning及算法在T=2较能兼顾查准率及查全率。另外,LC-1NN算法在T=7时,相较于其它分类算法拥有最佳的预测效能。

另外,本研究也发现:当用来预测的历史数据时间越短,大部分算法的查准率较高,即将毒品犯罪冷点预测为毒品犯罪热点的比率较小;而当用来预测的历史数据时间越长,查全率有些微上升趋势,即将毒品犯罪热点预测为毒品犯罪冷点的比率较小。此外,考虑地缘关系亦有助于提升算法的预测效能。最后网格面积的大小,以及都市人口分布与区域特性,皆与算法的预测效能息息相关。综合而言,行政区内的面积大小较为接近,分布较为均匀的居住或商业区,算法也有较佳的预测效能。

正是由于包括革命竞赛在内的革命实践在群众中深入推行,苏区民众在实践中不断加深对马克思主义理论的认识、理解,并最终实现认同,是传播革命思想和马克思主义大众化的重要途径。

随着大数据搜集与分析技术的进展,大数据的警察应用将逐渐从辅助案发后的犯罪重建层面,迈向协助预先发现问题及寻找因应作为的犯罪预防层面。如何更精准地在特定的期间与空间预测可能发生的犯罪,以协助治安机关研拟有效的防范措施与因应对策,将成为极重要且急需发展的研究领域。

参考文献:

[1]麦尔荀伯格,库基耶著,林俊宏译.大数据,天下文化[M].北京:中信出版社,2013.

[2] McKinsey Global Institute,2011,Big Data: the Next Frontier for Innovation,Competition,and Productivity.

[3]J.Bachner,2013,“Predictive Policing: Preventing Crime with Data and Analytics”,IBM Center for the Business of Government.

[4] D.Bajpai,2012,“Emerging Trends in Utilization of Data Mining in Criminal Investigation: An Overview”,Journal of Environmental Science,Computer Science and Engineering&Technology,Vol.1,No.2,pp.124-131.

[5]H.C.Chen,W.Chung,J.J.Xu,G.Wang,Y.Qin,M.Chau,2004,“Crime Data Mining: A General Framework and Some Examples”,IEEE Computer,Vol.37,No.4 ,pp.50-56.

[6]R.Nichols,2010, “Memphis Cracks Crime Trends with Forecasting Technology”,Government Technology.

[7]A.G.Ferguson,2012,“Predictive Policing and Reasonable Suspicion”,Emory Law Journal,Vol.62,No.2,pp.259-325.

[8] [18]T.Ferrick,2013, “Using data,Philly Police Bring Major Crimes to Lowest Levels in Five Years”,http://axisphilly.org/article/using-data-philly-police-bring-major-crimes-to-lowestlevels-in-five-years/.

[9]E.K.Jabar,S.H.Hashem,E.M.Hessian,2013,“Propose Data Mining AR-GA Model to Advance Crime analysis”,IOSR Journal of Computer Engineering (IOSR-JCE),e-ISSN: 2278-0661,p-ISSN: 2278-8727,Vol.14,No.5,pp.38-45.

[10]A.Malathi,S.S.Baboo,2011, “Enhanced Algorithms to Identify Change in Crime Patterns”,International Journal of Combinatorial Optimization Problems and Informatics,Vol.2,No.3,pp.32-38.

[11]A.Malathi,S.S.Baboo,2011, “An Enhanced Algorithm to Predict a Future Crime using Data Mining” International Journal of Computer Applications Vo.21,No.1,pp.1-6.

[12][24]D.Wang,W.Ding,H.Lo,T.Stepinski,J.Salazar,M.Morabito,2013,“Crime hotspot mapping using the crime related factors-a spatial data mining approach”,Applied Intelligence,Vol.39,No.4,pp.772-781.

[13]王朝煌,彭议霆.社会网络分析之研究——以因特网搜寻为例[D].第三届恐怖主义与国家安全学术研讨暨实务座谈会论文集,2007.

[14]王朝煌,林建隆.抢夺案隐性链结犯罪关联模式之研究(2010年警察学术研究与交流研讨会论文集)[D].中央警察大学,2010.

[15]王朝煌,林建隆.2011年刑案犯罪特征之比较研究——以台北市抢夺与住宅窃盗犯罪为例[J].警学丛刊(第四十二卷,第二).

[16]林建隆,王朝煌.犯罪情报分析实作——以通讯监察分析系统为基础[D].第十四届信息管理暨实务研讨会论文集,2008.

[17]林建隆,王朝煌.住宅窃盗隐性链结犯罪关联模式之研究[J].信息、科技与社会(第十一卷,第二).2011.

[19]王朝煌.运用大数据辅助警政工作治理——大数据警政应用之探讨[D].2015警政署警政治安策略研讨会论文集,2015.

[20]廖有禄.信息系统在国内警政机关之应用[J].警学丛刊(第二十六卷,第五),1996.

[21]R.E.Park,E.W.Burgess,R.D.McKenzie,1984,The city,University of Chicago Press,pp.1-17.

[22]C.R.Shaw,H.D.McKay,1942,Juvenile Delinquency in Urban Areas,Chicago: University of Chicago Press.

[23]A.L.Nelson,R.D.Bromley,C.J.Thomas,1996,“The geography of shoplifting in a British city:Evidence from Cardiff”,Geoforum,Vol.27,No.3,pp.409-423.

[25]黄友岳.适地性社群数据分析在犯罪预测之应用[D].台湾大学电机工程学研究所学位论文,2015.

[26]C.H.Yu,W.Ding,P.Chen,M.Morabito,2014,“Crime forecasting using spatiotemporal pattern with ensemble learning,” Proceedings of the Pacific-Asia Conference on Knowledge Discovery and Data Mining,Springer International Publishing,pp.174-185.

 
陈等阳,王朝煌
《警学研究》 2018年第02期
《警学研究》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号