快捷分类

基于社交网络分析的诈骗团体挖掘方法研究

更新时间：2009-03-28

0 引言

根据2015年发布的《中国互联网发展状况统计报告》，截至2016年6月，中国网民规模达7.10亿，互联网普及率达到51.7%，超过全球平均水平3.1个百分点。同时，国内微博用户总量从12年的2.74亿增长到15年底的5.03亿，可见增长之迅速。作为一种新兴的社交媒体，微博作为信息发布和传播的主流平台，正在逐渐改变着人们的生活方式。网民们热衷于在微博上分享自己的心情，评论当前流行的元素，探讨当今的社会热点，并关注自己的喜好，这给微博的数据挖掘带来了相当大的价值，同时也使得诈骗团体的行动更加便利[1-2]。

社会网络以用户为基础，具有主体繁多、用户影响力差异显著、用户特征与信息资源复杂且事件突发性强等特性。中国社会网络环境比较复杂，尤其是诈骗谣言等信息对社会的影响较大，引导不当极易引发社会矛盾。微博的出现进一步推动了社会网络的发展。而且微博具有较为活跃的用户量，若仅仅依靠传统的统计方法无法高效地提取有价值的信息，这就急需一种更高效的技术能对海量文本数据进行分析和挖掘，社会网络分析和数据挖掘技术应运而生。因此利用社会网络分析和数据挖掘技术对微博中诈骗团体的语言行为进行研究是可行的而且是很有必要的[3-4]。

对此，国内外相关学者做了大量研究。张劭捷等将垂直搜索的技术、文本分析和挖掘的技术应用于微博的舆情分析，分析了网络热点话题的发现模型等，并设计了一个基于微博设计网络的舆情分析系统[5]；缪茹一等对微博进行细粒度情感分析，将情感分为七种类别，提出了融合微博显性和隐形特征的情感聚类方法，开发出一个情感分析与监控系统[6]。国外微博的发展始于2006年，是由Evan Williams推出的Twitter把人们引入微博的世界，从而一系列关于微博的研究相应出现[7]。

以表2中的线性方程计算杂质Ⅲ和Ⅷ相对于盐酸度洛西汀的校正因子，结果显示：杂质Ⅲ与杂质Ⅷ的校正因子均在0.2～5.0之间，但杂质Ⅲ的校正因子在0.9～1.1之外[6]（表2）。故可以采用加校正因子主成分自身对照法计算不在范围内的杂质Ⅲ的含量，相对校正因子可确定为1.7。

鉴于国内外对微博中诈骗团体的挖掘方面的研究较少，因此在前人研究的基础上，通过结合社会网络分析方法和数据挖掘算法，分析出诈骗团体应该具备的特征属性，从而挖掘出微博上潜在的诈骗团体，帮助网民减少受骗。

1 相关理论知识

1.1 社会网络分析

社会网络是指社会行动者及其关系的集合。一般情况下，社会网络的形式化界定用点和线来表示网络，社会网络可简单地理解为各种社会关系交织成的结构[8-9]。社会网络的形式化可表达包括社群图和矩阵两种方法。其中社群图用于表示一个社会群体成员之间的复杂关系，由表示社会成员的点和线连成的图构成。举例说明，图1为一个简单的微博传播的社群图，抽象出关系为：用户A发一条微博消息M0，然后B进行转发生成M1，继而C、D、E进行转发M1分别生成M2、M3、M4，然后博主F转发M2生成M5，G转发M5生成M6。

图1 微博的传播社群图

社会网络分析是一个针对社会网络的内部结构和节点之间的关系进行分析和解释的重要工具。通过社会网络分析可以了解社会网络的内部特性和节点之间的角色关系。其中用来表示社会网络内部特征的组件包括社会网络的密度、中间程度、各节点的角色等，以此为基础来分析社会网络的内部结构[10-12]。

1.2 文本特征选择

特征选择的过程是一个挑选文本特征的过程，首先要查找能够表示训练文本的特质集合，然后按照评估函数从中挑选出对分类有较高贡献的特征项构成特征子集。最常用的方法有TF*IDF、互信息/信息增益、期望交叉熵等，文中使用应用较为广泛的TF*IDF法。

首先政府要积极主动的将监管思维进行优化创新，主动的将互联网金融市场的财务管理机制进行构建。而且需要充分的考虑到互联网的特性，必须要通过互联网的角度出发对互联网金融市场进行防范机制的规定；同时又要尊重市场资源配置的作用，不能够过多的限制市场资源配置的作用。政府应该根据市场的发展进行顶层设计，同时为互联网金融行业提供快速的发展方向以及法律依据，确保互联网金融市场的发展能够在坚实的基础背景下发展。

2 微博中诈骗团体的模型构建与实现

利用社会网络分析与数据挖掘算法分析出微博中诈骗团体应该具备的特征，并挖掘出新浪微博上潜在的诈骗团体。为了实现这个目的，文中的实证主要分为以下四个步骤：微博数据采集：网络爬虫程序的开发；文本数据清洗；诈骗团体的社会网络特征和文本特征的挖掘；诈骗团体预测及评估。流程如图2所示。

图2 研究流程

2.1 微博数据采集：网络爬虫程序的开发

IDF=log(文章总数/包含该词的文章数+1)

2.2 数据处理

取到文本信息后，首先要对文本数据进行清洗。文本数据里存在大量的冗余杂乱的数据，好多基本上是没有任何价值的，如果将这些数据也引入到词频统计里，必然对模型的最终结果产生深远的影响。因此在建模之前需要对文本数据进行预处理，删除掉大量无价值的信息，包括去重、机械压缩去词和短句删除。

数据经过预处理之后，在进行数据挖掘之前还需要对文本数据进行分词处理，即将连续的字序列按照一定的标准重新组合成词的过程。而且不同的分词效果会直接影响到词语在文本中的重要程度，因此采用Python中评价较高的中文分词包“jieba”对文本数据进行断词，最后整理成有字词组成的数据集。

Salton在1988年提出使用TF*IDF法计算单词权重，其中TF为词频，即特征词在文本中出现的频率，用于表示该词描述文档内容的能力；IDF为反文档频率，即lg(N/n+0.01)(其中N是文本总数，n是出现该词的文本数)，用于计算该词区分文档的能力。该方法认为：如果某个单词在一个文本中频繁出现，那么它在另一个相同类型的文本中出现的次数也会很多，反之也成立。同时，如果一个单词出现的文本频率越小，则认为该单词的文档区别能力越强，因此引入反文档频率，最终以TF和IDF的乘积来定义特征空间坐标系的值[13-15]。

2.4.2 社会网络特征对比

TF=单词在文章中出现的次数/文章的总次数

要分析微博平台上的诈骗团体，首先要对微博上关于诈骗的热点、文章和相关评论数据进行采集，对比多种网络上的爬虫工具。选用C#自己开发出一款爬虫软件，对比C#的网络库采集数据。设定微博为新浪微博，通过关键词“仇恨”字段获取相关的URL，使用C#的httpwebrequest类库访问URL获取返回结果，解析出需要的数据。

TF-IDF=TF*IDF

由于矩阵B的奇异值求解需要用正交三角(QR)分解来估计所有特征向量和特征值,运算量大,耗时较长.本文利用快速不动点算法来估计B的最大特征向量,将特征向量估计表示为优化问题，即

丁勇，桂林电子科技大学计算机与信息安全学院教授、副院长，广西密码学与信息安全重点实验室主任；主要研究方向为公钥密码理论、同态加密、密码安全协议、区块链等；主持国家自然科学基金、中国密码发展基金、国防预研基金、广西区自然科学基金等项目10余项；发表论文60余篇，其中SCI/EI检索30余篇，出版学术专著1部、工信部规划教材1部。

2.3 诈骗团体社会网络分析特征获取和文本特征的挖掘

2.3.1 通过社会网络分析特征获取

首先从整体社会网络的角度对诈骗团体进行社会特征值的挖掘，主要从两个方面进行分析，一是网络密度，二是平均最短路径。

在进行社会网络特征对比之前，需要先比对训练集中得到的内容特征向量与测试集中的内容特征向量的相关程度，判断测试集中的内容特征值与既有的训练集中的内容特征之间的相似度(similarity)。通过上述分析，可以得到测试集中与诈骗内容高度相似的族群，并将此族群列为潜在的诈骗团体。

其次从网络节点的角度进行分析，主要对节点的连接度和中心性进行分析。通过分析节点与节点之间的连接度，可以了解节点在整个社会网络中的活动范围，而对中心性进行分析，主要是用于衡量单个节点在网络中的重要程度，可以借此来掌控整个社会网络的主要信息流向等，其目的就是为了挖掘出社会网络中的重要节点。

通过对诈骗团体的中心性进行分析，可以挖掘出诈骗团体内部各节点之间的角色担当以及诈骗团体内部各节点的结构，以此来担任诈骗团体的特征值，方便后续挖掘研究。

其实无论是叶霭玲还是白丽筠，我都无法搞定。我现在的状态就好像一句俗话形容的：老汉挑担——一头塌了，一头抹了。并不是她们对我的争夺，而是我要努力去讨好双方，结果一方也不得好。

2.3.2 通过文本挖掘获取特征关键词

在对训练集中的数据进行处理之后，对得到的数据集计算所有字词的TF-IDF特征值，然后进行排序。此外，从对诈骗团体的分析观察中发现，诈骗团体的目的在于传播诈骗信息，从而让更多的人上当受骗，其用词多半强烈且频繁。因此该研究只取微博中关于诈骗的训练样本集中TF-IDF排名前10的词作为关键词，即此微博的内容特征词。

2.4 诈骗团体的预测和评估

该步骤的目的是为了验证上述特征值的确立可否通过对比挖掘出潜在的诈骗团体。主要包括两步：内容特征对比和社会网络特征对比。

[35]Hun Sen,“The Royal Government of Cambodia’s Policies for the Second Term 1998 - 2003”, https://www.embassyofcambodia.org.nz/government_old.htm, 1998年11月23日。

通过网络密度分析可以对诈骗团体的训练集中社会网络之内部节点互动链接的强度进行大致的了解，密度高的社会网络通常代表与中心高度密集或高度相关而且信息传递速度更快。平均最短路径可用于衡量社会网络中，信息在节点与节点之间的传播效率，路径越短，传递信息的效率越高。

生成数据集之后，还需要计算一个词对于一个文本的重要程度，最常用的方法就是TF-IDF算法。某个词对文章的贡献度越大，它的TF-IDF值就越大，所以按TF-IDF值从大到小排序，排在最前面的就是文章的关键词，也就是特征值。其中：

对于上述分析得到的潜在的诈骗团体，通过分析比对这些潜在的诈骗团体所构成的社会网络特征与训练集中得到的社会网络特征是否存在高度相关性，判断该族群是否真的是诈骗团体。

① eɡ sedkil-i endeɡüü oilaasan yum ain-a(你误解你姐姐的心意了)

首先对潜在的诈骗团体进行社会网络构建和分析，建立相同的社会网络特征向量，然后进行特征向量之间的相似度对比，进而判断是否为真的诈骗团体。整体社会网络特征向量Gn=[平均连接度，网络密度，平均最短路径]，n=1,2，其中1表示训练集中的社会网络特征向量，2表示测试集中的社会网络特征向量。

通过对诈骗团体的中心性进行分析，可以挖掘出诈骗团体内部各节点之间的角色担当以及诈骗团体内部各节点的结构，这些角色在网络中的特征向量可以表示为：Fi=[网络中担任领导者角色的比率，网络中担任中间者角色的比率]，i=1,2，其中1表示训练集中的社会网络特征向量，2表示测试集中的社会网络特征向量。

用向量空间模型中的余弦相似性(cosine similarity)来比较特征向量之间的相似度。对于余弦相似性，可以想象空间中的两条从原点出发指向不同方向的线段，形成一个夹角，如果夹角是0°，这就意味着这两条线段方向相同，线段完全重合；如果夹角为180°，则说明方向完全相反。因此，可以用夹角的大小来衡量向量的相似性，夹角越小就代表向量越相似。假定A=[A1,A2,…,An]和B=[B1,B2,…,Bn]是两个n维向量，则A与B的夹角θ的余弦等于：

通过这个公式可以得到社会网络特征向量G1和G2和节点角色组成的特征向量F1和F2之间的余弦，余弦值越接近1，说明夹角越接近0，则这两个向量越相似。当这几个特征向量的相似度都较高时，则可以判定此潜在团体为诈骗团体。

我爬向过道转角。就被眼前的惨状惊呆了：过道人们横七竖八摞在那儿一动不动。我爬去找儿子，忽然听见了一个微弱的声音在叫“妈妈”，是儿子趴在面前。我们互相依偎着，我告诉他：“不要怕！和妈妈在一起，死也不可怕。人有生就有死，也许这么死是最痛快的一种，没什么！”嘴上虽然这么说，但心里在淌血，儿子来到这个世界还不到7年！

3 案例分析

通过一个小案例样本，分析已经存在的诈骗团体与一般的社会网络团体之间在内容特征和社会网络特征上的差异性。

3.1 实验样本集

通过网络爬虫技术搜集新浪微博平台上已经存在的诈骗团体和讨论女排相关话题的一般社会网络团体的信息，其中诈骗团体的社会网络包含15个独立节点和17条连接，而一般社会网络团体包含19个独立节点和21条连接。

2.4.1 内容特征对比

3.2 内容特征向量获取

通过获取到的诈骗团体和非诈骗团体的信息，经过上述介绍的数据清洗和处理，得到两个只包含字和词的数据集，然后分别计算它们的TF-IDF值；之后再根据TF-IDF值从大到小排序，各取前10个关键词作为代表社会网络的内容特征，其结果如下:

2.2 为各项产业跨界融合提供借力点《国务院关于加快发展体育产业促进体育消费的若干意见》（国发〔2014〕46号，以下简称《意见》）在加快发展体育产业的总体要求上明确提出“促进体育产业与其他产业相互融合”的基本原则，以及“积拓展业态，促进康体结合，鼓励交互融通”等3条促进融合发展的任务与要求。在任务导向下，体育特色小镇跨界融合模式的打造任重而道远。

育秧和机插技术较复杂，很多农户认为机插秧技术既繁琐又难于掌握，习惯于传统水稻种植，对接受水稻机插技术的意愿不太强，顾虑较多。作为农机推广部门，一要充分利用电视、报刊、宣传资料等加强对机插秧技术的宣传；二要组织现场演示示范，让农户到现场亲眼目睹机插示范，现场了解插秧机的效率和适用性；三要召开经验交流会，邀请机插示范户来讲机插育秧技术和机插节本增效的好处，用实践经验来说服农民群众。

诈骗团体：[骗子、非法、获利、个人消息、曝光、诈骗、隐蔽、电话、短信、拉黑]

在历史上，中华民族就有非同寻常的成就。李约瑟对中国古代科技史有深入的研究。英国学者坦普尔根据李约瑟的研究，表达了这样的观点:“我们生活的‘现代世界’是中国和西方种种成分的独特综合而成的。‘现代世界’赖以建立的基本创造发明和发现可能有多一半来自中国。”①这个判断肯定了中国文化在人类文明进步中的创造作用，符合历史事实。

一般社会团体：[郎平、中国、女排、冠军、铁榔头、一米八、梦想、夺冠、骄傲、奥运会]

针对不同的热点搜索词所产生的社群获取到的内容特征词便有很大的不同，通过这种性质便可以作为辨别诈骗团体的依据。

3.3 社会网络特征获取

通过Pajek32软件对上面两种社会网络团体进行构建并计算各自的社会网络特征，由此来观察两者之间的差别。Pajek是包含上千及至数百万个节点大型网络的分析和可视化操作。

由于通过求解相邻两层节点剩余能量均衡化问题得到各层充电时间的函数关系，故将该算法命名为ALBC(Adjacent Layer Balanced Charging)算法，其时间复杂度为O(N),具体的实现过程归纳如算法2.

图2和图3分别表示诈骗团体和一般社会网络团体(女排相关)所呈现的网络图(不带方向)。

图3 诈骗团体网络图

从图3可以看出，诈骗团体的网络图拥有两个主要的领袖，网络图中其他成员或者节点之间传递信息大多都要经过这两个领袖进行。

图4 一般社会团体网络图

而从一般社会网络团体的网络图来看，角色大多不是很鲜明，各节点之间大多直接进行信息传递。

如表1、表2所示，从这两个团体的社会网络特征值来看，这两个团体在社会网络角色中存在明显的差异性。诈骗团体存在非常明显的领袖节点，统一社会网络信息的传播和控制。而一般社会团体(女排相关)各节点直接比较松散，各节点内部之间大多直接进行交流，这与诈骗团体的社会网络组成有着显著的差异。

表1 诈骗团体的社会网络特征值

序号网络中担任领导者角色节点的比率网络中担任中间者角色的比率10.4440.61160.4440.66790.1110.27750.1110

表2 一般社会团体的社会网络特征值

序号网络中担任领导者角色节点的比率网络中担任中间者角色的比率10.2130.5320.2130.3260.2550.24200.2130.33

4 结束语

文中利用社会网络分析法和数据挖掘技术对微博中的诈骗团体进行分析和研究，挖掘出微博平台上潜在的诈骗团体，从而帮助人们减少受骗的机会。虽然对微博中的诈骗热点数据进行了分析和挖掘，但是由于该模型的复杂性，尚存在一些不足之处：首先，由于

数据的局限性，只研究了微博中的诈骗团体，对于其他平台的和沟通工具的诈骗团体有待进一步挖掘；其次，采用结巴分词进行断词，产生了大量的数据集，影响了运行效率，因此提高该算法的效率是后续的研究方向。

参考文献：

[1] 孙孟.微博营销-新媒体时代的营销宠儿[J].通信企业管理，2011(7):38-39.

[2] 吴继飞，邓安平.基于互联网时代微博营销的SWOT分析[J].中国集体经济，2011，21:52-53.

[3] 王利.基于数据挖掘技术的微博营销系统的设计与实现[D].武汉：华中科技大学，2013.

[4] 邵笑.新媒体诈骗的言语行为研究[D].锦州：渤海大学，2014.

[5] 张劭捷.基于微博社交网络的舆情分析模型及实现[D].广州：华南理工大学，2011.

[6] 缪茹一.基于文本数据挖掘的微博情感分析与监控系统[D].杭州：浙江工业大学，2015.

[7] ZHOU X,CHEN L.Event detection over twitter social media streams[J].VLDB Journal,2014,23(3):381-400.

[8] 康泽东,余旌胡,丁义明.微博社交网络的对称程度实证分析[J].计算机应用,2014,34(12):3405-3408.

[9] FARINE D R,WHITEHEAD H.Constructing,conducting and interpreting animal social network analysis[J].Journal of Animal Ecology,2015,84(5):1144-1163.

[10] 孙怡帆,李赛.基于相似度的微博社交网络的社区发现方法[J].计算机研究与发展,2014,51(12):2797-2807.

[11] 范超然,黄曙光,李永成.微博社交网络社区发现方法研究[J].微型机与应用,2013,31(23):67-70.

[12] NASON G J,FARDOD O,KELLY M E,et al.The emerging use of Twitter by urological journals[J].Bju International,2015,115(3):486-490.

[13] CHEN P,FU X,TENG S,et al.Research on micro-blog sentiment polarity classification based on SVM[C]//International conference on human centered computing.[s.l.]:Springer International Publishing,2014:392-404.

[14] FLEUREN WW M,ALKEMA W.Application of text mining in the biomedical domain[J].Methods,2015,74:97-106.

[15] IRFAN R,KING C K,GRAGES D,et al.A survey on text mining in social networks[J].Knowledge Engineering Review,2015,30(2):157-170.

作者

贾志娟，赵靓，周娜

出处

《计算机技术与发展》 2018年第05期

上一篇：无线感知网络中动作识别的滤波算法

下一篇：一种高性能计算网络下的TCP查找哈希算法

《计算机技术与发展》2018年第05期文献

大数据下数据预处理方法研究作者：孔钦，叶长青，孙赟

基于最小二乘法和BP神经网络的TOA定位算法作者：浦佳祺，陈德旺

基于权重自适应形态学的周期性噪声去除方法作者：戴丹，张兴刚

一种基于标签的程序控制流错误检测方法作者：姚伟，顾晶晶

基于文本属性的微博用户相似度研究作者：李梦洁，邵曦

融合信息熵和加权相似度的协同过滤算法研究作者：李玲，王移芝

基于弱特征重识别的多目标长效摘要作者：石亚玲，刘正熙，熊运余，李征

基于模型的IMA时间资源配置验证方法研究作者：王明明，胡军，张维珺，李宛倩

基于兴趣度度量的正负关联规则挖掘方法研究作者：马彦勤，武彤，邓烜堃

一种基于深度残差网络的车型识别方法作者：刘敦强，沈峘，夏瀚笙，王莹，贾燕晨

基于分项可变权函数的各项异性去噪模型作者：王锐锐，蔡光程

基于AHP的大数据可用性及挖掘方案模型研究作者：杨明，李铁冰，姜茸，高提雷，王佳

基于全卷积网络的目标检测算法作者：施泽浩，赵启军

基于博弈论的ALM协议改进算法作者：蔡媛媛，曹自平，张金娅

改进的新型蝙蝠算法作者：吕赵明，张颖江

基于节点兴趣非结构化P2P网络搜索机制研究作者：庄伟

自适应学习系统中“KCP学习者模型”研究作者：李春生，张永东，刘澎，张可佳

基于主成分特征的快速分形图像压缩算法作者：张爱华，唐婷婷，汪玮玮，张璟

基于量子粒子群优化的DV-Hop算法研究作者：张中芳，张玲华

无线感知网络中动作识别的滤波算法作者：吴春香，张建明

基于社交网络分析的诈骗团体挖掘方法研究作者：贾志娟，赵靓，周娜

一种高性能计算网络下的TCP查找哈希算法作者：张立武，冯宝，周建华，李洋，茅天奇

一种基于预判筛选的频繁项集挖掘算法作者：李德辰，吕一帆，赵学健

基于人工鱼群算法的改进质心定位算法作者：汪晨，张玲华

基于智慧实验室的安全事故分析与预测作者：楚丹琪，李睿智，高洪皓，张康

基于龙芯处理器的嵌入式可信解决方案作者：易平，庄毅

基于位置推荐中的隐私保护方法研究作者：张海涛，汪佩佩

面向OSPF脆弱点的分节点污染方法研究作者：周季璇，顾巧云，凤丹

基于计算机软硬件的视频监控系统设计与研究作者：黄岩

多服务器环境下动态身份认证密钥协商方案作者：曹阳

杂志信息网