更全的杂志信息网

移动大数据动态监控平台的研究与设计

更新时间:2009-03-28

引言

随着我国移动互联网进入稳健发展期,各移动应用平台进一步深化内容提升品质,各类综合应用不断融合社交、信息服务、交通出行及民生服务等功能。工业信息化部《2017年通信业统计公报》中显示移动电话用户总数达14.2亿户,普及率达102.5部/百人。2017年8月4日,中国互联网信息中心(CNNIC)发布第40次《中国互联网络发展状况统计报告》,报告显示目前中国移动端网民多达7.24亿,占网民总数的96.3%。移动应用每天都在产生海量信息,比如用户行为信息(包括对话开始、事件发生、事务处理等)和设备生成数据(崩溃数据、应用日志、位置数据、网络日志等),这些数据给大数据提供了源源不断的信息源去识别和分析手机用户一天的所见所闻[1, 2]

目前,国内刑事案件发生率居高不下,维稳反恐形势依旧严峻,且犯罪分子的反侦察能力越来越强。犯罪分子利用手机实施电信诈骗,借助微信、微博公众号、手机二维码、公共场所免费wifi窃取私人信息,侵犯个人隐私,散布危害谣言,制造恐怖事件等。由于恐怖犯罪活动具有隐蔽性,因此可运用数据挖掘技术,在犯罪活动准备、预备阶段就及时识别出犯罪线索及恐怖分子。通过对恐怖分子的网络行为特征建立数据模型,并在互联网的海量信息中进行数据挖掘,从而识别出具有恐怖嫌疑的人员。关于互联网用户行为的分析,一直都是业界研究的热点方向之一。

 

一、研究现状

据预测,2016年至2018年,全球移动数据流量将以每年50%的复合增长率增长。到2018年,全球移动数据流量将比2016年增加2倍。如何处理和利用好如此大规模的数据,已成为通信企业的迫切任务。

针对移动互联网大数据分析方面,研究人员通过与实际案例相结合,已经进行了初步的探索与研究。文献[3]中在传统数据挖掘算法的基础上提出了一种混合型聚类算法,用于分析与研究移动互联网中海量用户数据;文献[4]基于数据仓库,整合地理信息系统与WEB系统,构建了移动通信数据分析系统,在空间、实践、目标号码等多个维度上对通信数据进行查询、分析;文献[5]分析了移动设备大数据分析应用前景,通过现实案例说明了执法部门对移动设备电子数据分析方面技术需求的迫切程度。作为互联网+的重要组成部分,行业大数据应用实践一向被产业所关注,公安行业已经有了一些探索。文献[6]通过设计实现移动用户上网行为审计系统,可及时发现可疑用户行为,对用户上网行为进行溯源,以保障移动互联网的安全。

大数据相关思维和预测思维在案件侦查中拥有广泛运用前景[7, 8],尤其是预测性,必将推动事后侦查向事前侦查、预测侦查转型;提出大数据侦查的模式,强调从数据空间去寻找突破点;提出大数据搜索、数据碰撞、数据挖掘、数据画像、犯罪网络分析、犯罪热点分析以及大数据公司取证这几种大数据侦查的方法;通常而言,能够直接识别自然人的信息,包括姓名、身份证号、电话号码、护照号码、指纹、DNA数据等[9, 10];除了直接识别自然人的数据外,一些看似与自然人无关的数据在特定情景下也能够指向具体个人。尤其是在大数据时代,即使是去除个人身份信息的匿名数据,通过数据挖掘技术,最终仍然能够指向具体的个人[11],可解决手机号码未实名制的问题。

二、总体设计

移动大数据动态监控平台通过移动大数据连接起案件与嫌疑人之间的关系,实现了“全盘动态监控,特定目标搜索”。

移动大数据动态监控平台的数据分析将采用最成熟、最先进的数据挖掘技术实现,数据挖掘算法分为分类、预测、聚类、异常和趋势发现等类型[14]。由于本平台所采集的数据是由多种固定属性组成的,每条记录都可以抽象成具有多个分量的数据向量,且数据向量均由固定位数的数值型分量组成,因此可以方便的进行向量距离、相似度的计算,分析出潜在联系的数据规律,基于聚类的数据挖掘算法刚好满足本平台的要求。

基于模型的聚类算法主要有统计学法COBWEB和神经网络法SOM等[15],COBWEB假定了每个属性上的概率分布是彼此独立的,这与属性间经常是相关的实际情况相悖,SOM具有无监督学习、可视化、拓扑结构保持以及概率保持等特性,广泛应用于聚类分析、图像处理、语音识别等信息处理领域,结合实际应用选取SOM模型作为移动大数据动态监控平台的数据分析模型。SOM的网络拓扑结构如图1所示。

2.根据嫌疑人的手机号码采集该嫌疑人的通信数据进而控制整个案件的发展。

因此,移动大数据动态监控平台的数据采集通过在通信运营商的网络上部署DPI设备实现[13]。在应用环境中对系统进行部署后,首先需要处理的即为捕获数据包,在省汇路由器的接口处连接DPI设备、NAT(网络地址转换)设备,可实现对通信数据的预处理过程,如图3所示。理,将某些含有隧道头部数据包的头部进行剥离,充组分片数据包及数据流,把提取结果进行记录并进行存储。接下来要进行数据流过滤。过滤可以看作是一种语义抽样操作,它对每个数据元素进行分析,丢弃对某些挖掘结果影响比较小的数据。一般来说,过滤是较消耗计算资源的,因为它要对每个数据元素判断是否舍弃。移动大数据动态监控平台采用基于语义的数据流过滤,以便选择对数据分析挖掘结果有实质影响的数据。

 

聚类数据挖掘算法分为基于划分的聚类算法、基于层次的聚类算法、基于模型的聚类算法、基于密度的聚类算法和基于网格的聚类算法五大类。基于模型的聚类算法是给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。在刑事案件侦查中,可以将不同的案件特征和不同的嫌疑犯特征以一个特定模型的形式给出,然后在数据分析时在海量的数据中寻找能够满足这个模型的数据集,以期获得较为准确的最终结果。

 

三、相关技术研究

(一)数据采集

DPI(DeepPacketInspect,深度包检测)技术在传统IP包检测的基础上增加了应用层协议分析,可识别出各种应用及其内容。主流业务识别如百度搜索、UC登录等;主流APP识别如腾讯、淘宝、新浪、移动业务等;手机浏览器识别如UC浏览器、QQ浏览器、360浏览器、火狐浏览器等。DPI设备采集的数据包含以下内容:移动大数据中的DPI主要用于挖掘出用户信息类、位置信息类、业务感知类、网络质量类、用户行为类等数据,具体内容如下表所示[12]

 

移动大数据动态监控平台系统架构如图1所示,分为五层:数据采集层、数据流过滤层、数据存储层、数据分析层、交互式展示层。

(二)数据流过滤

基于结构特征的时序聚类方法研究……………………………………………………孟志浩,刘建伟,韩静 24-3-61

2.1 最佳产孢方法筛选 由图1可知,培养5~ 6 d后孢子悬浮液中目镜10倍及物镜20倍显微镜下一个视野内孢子数约为93个。由图2可知,培养5~ 6 d后镜检孢子数约为95个,且该方法存在杂菌污染的可能性。PS液体培养法见图3。由图3可知,培养1 d后镜检孢子数为211个。

 
 

(三)数据分析

主要解决以下两个问题:

采集到的数据经过协议解析与应用识别进行预处

移动大数据动态监控平台通过运营商提供的接口,可24小时不间断的对涉及敏感信息的移动互联网数据进行查找,如社交网站上爆炸现场的照片视频,色情网站上的图片视频,涉及恐怖事件字眼的移动通信数据,通过通信数据解析定位到具体用户,将该用户设定为监控目标,构建该用户的大数据分析子库,动态监控该用户的日常通信数,搜集与案件相关的电子证据,构建该嫌疑人的行为轨迹、行为模型、社会模型,预测罪犯的逃逸路线、活动区域、兴趣偏好、社会关系等,为案情研判提供依据,对危害社会公共安全行为及违法犯罪行为可及早发现,提前采取措施应对,制止突发事件的发生。案件信息与用户数据之间的对应关系如图2所示。

 

1.根据动态监控得到的通信数据及时发现犯罪案件;

这首诗的写作手法与上一首如出一辙,都是从第三句横生枝节,出其不意,给人惊喜。诗人在山中的陋室中读《易》入迷,四周寂静,柴扉半开,一派闲静潇洒的风貌。蓦然之间,一枝梅花伸入窗户,山中不知年的诗人这才发现快要春回大地了。

 

输入层由N个输入神经元组成;输出层也称为竞争层,由M个输出神经元组成,每个神经元代表了一个类别。网络是全连接的,即每个输入结点都同所有的输出结点相连接,连接的权值为Wij(i=1,2,…,N;j=1,2,…,M)。SOM网络聚类的基本思想是通过网络训练,把相类似的输入映射到同一个输出结点上,从而实现对输入数据的聚类[14]

9日深夜,一些示威者开始强行占领邮电大楼;一些人前往火车站朝开往莫斯科的特快列车扔石头,打砸车窗玻璃,叫嚷“俄国狗……”;还有一些人则动用刀子、石块、皮带对付执勤警察,甚至抢夺其武器。赫鲁晓夫获悉事态近乎失控后终于明白:“不动武是不行的。”“不可以对这种狂热听之任之。”[5](P163-164)于是,他命令坦克、摩托化步兵和内务部队进入第比利斯市区。随后,军方动用坦克驱散了主要街道和列宁广场上的人群。一些人负隅顽抗,结果遭到了镇压。据不完全统计,“至少有20名示威者被打死,60人受伤,被捕入狱的人更多。”[9](P298-299)

1980年以后,在国家“开放搞活”方针指引下,企业国际业务出口以技贸结合、合作生产等方式为主。1980年至1985年的“六五”期间总出口项目创汇630多万美元。

四、结束语

通过研究设计公安移动大数据实时监控平台将移动互联网数据(语音、短信、位置更新信息、APP传输数据等)应用于犯罪侦查中,从整体设计到相关技术的选取采用均经过了分析研究。由于传统SOM模型存在着一些不足,在后期工作中将对该算法进行进一步的改进,以期更好的应用于平台中。

参考文献

[1] 傅志华.大数据在移动通讯行业的应用[EB/OL].(2014-11-17)[2016-04-06].http://www.leiphone.com/news/201411/eAYu5wZWfAKAYvrG.html.

[2] 曾嘉,刘诗凯,袁明轩.电信大数据关键技术挑战[J].大数据,2016,2(03):96-105.

[3] 余波.移动互联网中海量用户数据分析与研究[J].技术与市场,2016,23(08):192+195.

[4] 张波.基于大数据技术的公安移动通信数据处理平台设计与实现[D].山东大学,2016.

[5] 刘浩阳.移动设备大数据分析的公安应用[J].警察技术,2015(03):14-17.

[6] 曹超.移动用户上网行为审计体系统的设计与实现[D].北京交通大学,2016.

[7] 王燃.大数据侦查[M].北京:清华大学出版社,2016:109-140.

[8] 王彬.犯罪侦查中的大数据应用分析[J].中国刑警学院学报,2017(04):31-37.

[9] 王彬.犯罪侦查中大数据运用的困境与破解[J].铁道警察学院学报,2017,27(04):38-44.

[10] 石佳友.网络环境下的个人信息保护立法[J].苏州大学学报,2012(6):85-96.

[11] 王燃.大数据时代个人信息保护视野下的电子取证[J].山东警察学院学报,2015(5):34-38.

[12] 冉萌,韩玉辉.DPI技术在移动大数据中的应用[J].邮电设计技术,2016(08):33-36.

[13] 李磊,林津如.移动互联网不良信息监控过滤技术的比较分析[J].移动通信,2015,39(09):44-48.

[14] 伍育红.聚类算法综述[J].计算机科学,2015,42(S1):491-499+524.

[15] 陈良维. 数据挖掘中聚类算法研究[J]. 微计算机信息,2006,22(21):209-211.

 
苟杰,陈彦如
《警察技术》 2018年第03期
《警察技术》2018年第03期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号