快捷分类

基于聚类分析的微博广告发布者识别

更新时间：2009-03-28

0 引言

微博这一概念最初于2006年由美国Twitter网站的创始人Evan Williams提出［1］。2009年，新浪将这一自媒体表现形式引入国内。经过几年的成长，微博早已走进了人们的日常生活;而伴随着微博的迅猛发展，越来越多的垃圾信息也随之出现，这些信息不仅影响着用户体验，也对微博的相关研究工作造成了极大的负面影响［2］。

针对微博空间中的垃圾信息，传统的发现方法主要依靠微博信息中的显示统计特征:Zhang等［3］利用重复信息检测提出一种局部性敏感散列算法来过滤大量相似的微博;丁兆云等［4］针对微博中关注网络的有向特性，给出了邮箱网络中局部三角形数量统计算法DirTriangleC，结合用户博文数量和局部三角形比例发现隐式垃圾用户;Thomas等［5］针对Twitter中出现的URL(Uniform Resource Locator)进行处理来识别其中的推销内容。利用统计特征进行计算具有一定的局限性:1)数据处理能力低，无法实现大数据量计算;2)计算主要依据经验，检测具有一定的滞后性。

《卜算子》，于万树《词律》第三卷、王奕清《钦定词谱》第五卷有记载。虽体例有所不同，但均以苏东坡“缺月挂疏桐”一首为正格。

Benevento等［6］将垃圾信息的检测转化为机器学习的分类问题，他们使用用户行为(关注数、粉丝数、tweet条数)和微博内容(广告关键词、URL)等特征，采用支持向量机(Support Vector Machine，SVM)方法发现twitter平台上的广告内容及广告发布者;Wang［7］通过提取用户特征、传播特征等，采用朴素贝叶斯分类算法进行训练，从而筛选出样本中的垃圾信息。国内学者也针对微博空间进行了相应的研究:李赫元等［8］针对垃圾用户提出了基于用户图、用户资料、微博内容的3大类7种检测特征，并最终使用支持向量机得到了较好的实验结果;赵斌等［9］针对微博中的反垃圾处理问题提出了基于重用检测模型的垃圾用户检测算法，利用文本相关性和时间相关性对发帖行为进行建模，而使用分类算法需要对大量的样本数据进行人工标注，训练集大小有限，对此，马彬等［10］提出了通过聚类实现微博话题检测的思想，他们使用基于线索树的双层聚类方法进行实验并取得了较好的效果。因此，本文使用聚类算法进行计算，但由于实验目标对象为微博广告发布者，作为微博用户群体中的非正常用户，采用具有离异点处理能力的基于密度的空间聚类(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)算法更为合适。

对比现有研究，本文提出了以下几点改进方法:

1)提出核心微博序列概念。本文针对更为常见的在广告微博中夹杂大量的普通微博这一现象进行处理，提出核心微博概念，从大量混杂的微博中筛选出用户核心主题和对应的核心微博序列，用于之后的特征提取。

2)基于聚类算法处理多维微博特征。本文使用DBSCAN算法，通过每个样本是否为噪声点来判断其是否为广告用户。由于使用聚类算法，从而避免了大量的人工标注行为，使利用大数据集进行实验成为可能。

不少家长喜欢给孩子捏脊，就是让孩子趴在床上，用手沿孩子的脊柱，从近臀部处向颈部滚动式地捏上去。因为这是督脉所在，每天捏捏，能增强孩子体质，甚至有书直称“捏脊能治百病”。

3)基于用户粒度进行检测筛选。现有研究多针对单条微博进行判断，而以单条微博为粒度的数据集数据量巨大，处理困难。本文以用户为粒度，以检测用户是否为微博广告发布者为目的，单条微博只会与同一用户的其他微博进行交叉计算，极大减少运算量。

(2)不同底质对沉水植物超氧化物歧化酶有不同程度的影响。轮叶黑藻较另外两种沉水植物对底质类型的差异变化显著，但不同营养程度的底质造成的大致趋势相同，总体趋势是泥滩>草洲>沙滩。

1 微博数据集及特征提取

1．1 新浪微博数据集

本文数据集来源于新浪微博，内容更新至2015年11月12日。此数据集内包含用户数据和微博数据，都为结构化数据，以CSV格式存储。其中，weibo_users．csv文件描述用户信息;lvX_weibo．csv文件描述微博发帖信息。

表1 weibo_users．csv用户信息数据结构Tab．1 Data structure of user information weibo_users．csv

pagenumber_ebook=51,pagenumber_book=1268

字段含义verified人工标注标签用户是否认证name 用户名gender 用户性别location 微博账号所在地user_id 用户ID description 用户描述tag

表2 lvX_weibo．csv微博信息数据结构Tab．2 Data structure of weibo information lvX_weibo．csv

字段含义user_id 用户ID reposts_count 转发数comment_count 评论数source 为微博发送来源created_at 微博创建时间text 文本内容

1．2 核心微博序列提取

微博广告发布者经常使用各种手段掩盖其广告内容，其表现特征有以下几种:1)在广告微博中夹杂大量的普通微博来稀释其中的广告特征，如表3所示;2)在某一时间段进行广告发布，其余时间段均表现为正常微博用户。普通微博的存在会严重影响各个文本特征计算的准确性。另一方面，微博广告发布者大都围绕一个或几个类别的实体进行宣传。因此，本文引入基于关键词的核心微博序列提取方法。

表3 广告内容夹杂普通内容示例Tab．3 Examples of advertising content mixed with ordinary content

例类型蚬壳散传说中的香港良药，有胃部不适者一定要用，比国内要强多了，35元一个，5个包邮我在:|香港油尖旺区香港油尖旺区香港特别行政区广告离圣诞还这么久，在香港的圣诞气氛好浓，各大商场摆满了圣诞树，超市堆积如山的金莎，我是不是也该买金沙了呢?我在:|同发路同发路广东省普通费列罗138元3件，一盒16粒装我在:|香港元朗区香港元朗区香港特别行政区元朗区地点详情1香港特别行政区广告

本文采用准确率(precision)、召回率(recall)、F值(F-measure)来评价算法性能［13］。计算公式如下:

本文使用自然语言处理与信息检索共享平台(Natural Language Processing＆ Information Retrieval Sharing Platform，NLPIR)中文分词系统提取关键词，每个用户的每条微博都会获得一个关键词列表。

其中:Useri是表示用户i的微博序列，Wi表示其中第i条微博的关键词列表，keyword为具体某个关键词。统计每个用户关键词的词频，将近义词的词频进行合并后取最大词频的10个关键词，组成用户关键词列表，并使用该列表查询包含这10个关键词的所有微博，最终得到该用户的核心微博序列C:

近年来，微藻基因工程育种也取得了许多进展。微拟球藻（Nannochloropsis sp.）进化历史复杂，基因序列可用于多个物种，已经产生了许多转录数据集，常作为基因组学的研究模型[10]。研究表明，苹果酸酶是丙酮酸代谢和固碳的关键酶。三角褐指藻中苹果酸酶的过度表达可以在不影响生物量的同时显著提高油脂积累量[11]。虽然基因工程技术已逐渐成熟，但在微藻中的应用还较少。未来还应多从微藻代谢途径等角度出发，加深对微藻微观水平的认识，以便将基因工程技术更好地运用于微藻育种。

使用核心微博序列进行微博文本特征计算，可有效降低普通微博对计算结果的影响。由于排除了其中大量的普通内容，使得文本相似特征和时间规律性更为显著。

1．3 用户特征选择

特征选择是聚类问题的关键部分，恰当地使用多维特征才能取得较为明显的聚类效果。在本文中，由于实验对象为用户而不是独立的微博文本，所以在选取特征时，不仅选取了用户所发微博对应的文本特征，也加入了发布者的属性特征。结合用户属性特征，不仅可以更接近用户聚类的目的，更能解决仅针对微博文本词汇计算相似度带来的数据稀疏性问题。

在对混凝土进行拌比时，需要根据建筑工程所需的强度与设计要求，对水、水泥、砂石与添加剂进行合理的配置，并按照规定的添加顺序进行相应添加，以有序化开展混凝土配置工作。混凝土材料配置完成后，需要对混凝土的搅拌时间与温度进行严格控制，以使得混凝土能够保持良好的均匀性与密实度。在混凝土配置完成后，需要对混凝土的配合比例与质量进行相应检测，若误差值超过规定数值后，则需要采取相应措施进行改进处理。

1．3．1 文本特征

1)文本相似度。

而针对某一用户的广告关键词倾向性，本文使用上文提到的用户关键词序列W，并将W中每一个关键词的广告微博关键词倾向性相加，得到用户的广告倾向值。

在本文中，计算每个用户的核心微博之间的余弦相似度并求平均值以作为该用户的文本相似度。

其具体步骤如下:

(1)关键词提取后的核心微博序列C。

(2)使用NLPIR对每条微博进行分词处理，得到分词结果。

(3)计算每两条微博W'i、W'j的余弦相似度。

(a)取分词结果的并集。

二是词汇准确性不够。因中西方文化的不同，某些词汇在西方国家和我国有明显区别，易出现翻译纰漏。如“莲花”，长久以来我国赋予莲花高雅、正直的文化内涵，而英语中莲花-lotus则意为慵懒、散漫，lotus eater表示“过着懒散生活的人”。

(c)写出词频向量 Si、Sj。

由于飞机所包含的参数量是巨大的，涉及飞机的各个方面，管理和调用的难度很大。使用数据库技术可以高效地管理飞机数据，其与互联网的结合使信息的传播速度和范围都有了大幅度的提升，也有利于数据库的进一步完善。将飞机数据库的搭建与“互联网+”相结合，飞机设计者能够便捷地使用飞机数据库中现有的飞机数据作为依据，为今后的飞机设计进行指导，对于飞机设计者而言具有深远的意义。

(d)计算余弦相似度。

模糊综合评价法是一种基于模糊数学的综合评标方法，该法根据模糊数学的隶属度理论把定性评价转化为定量评价，用模糊数学对受到多种因素制约的事物或对象做出一个总体的评价。

赛十娘平静地说：“还是很难，只能试试看……各处都有好人坏人，东洋人也是种种色色。这里就有个叫古贺的东洋人，看着就善。他总挑着最后一个进来，来了总是先坐着，安静地看着我。那眼光很柔和，有时还挂着泪花……明朝要是碰到他就好办了。”

(4)计算相似度平均值

2)时序相似度。

通过对比各个用户发帖时间序列，发现广告发布者的核心微博与普通用户相比具有明显的时序规律性。分析原因有如下几点:a)微博广告发布者为了广告能够获得更好的收益，即获得更高的关注度，通常会研究广告发布的时间曲线，寻找最佳时间点将广告投放出去;b)为了避免给用户造成刷屏的感觉，广告发布者通常会以一定的间隔进行广告投放;c)部分广告实际为机器自动发布，由人工设定内容和时间间隔，因此机器投放的广告微博会呈现极强的时序规律性。

直到晚上10点多，卤渠才修复完成。全体人员已在暴晒、大风、尘土下连续工作8个多小时，有人踩到低洼的地方几乎摔倒，体力严重透支。挖机司机胡宝亮，连续8个多小时窝在狭窄的驾驶室内工作，连水都没来得及喝一口。直到完成任务，他才费力地走出挖机驾驶室，汗水夹杂着尘土，整个人就像从水泥灰里出来一样。

针对上述问题，本文对发帖时间序列进行分析，引入信号学中的白噪声(white noise)检验方法。白噪声序列是没有消息可提取的平稳序列［11］。本文中，白噪声检验结果——统计量whiteNoise值越大表明时间序列随机性越强，即为广告发布者的可能性越低。其计算公式如下:

其中:whiteNoisei为第i个用户的白噪声显著性水平，timei表示其发帖时间序列，K为差分阶数。

1．3．2 用户特征

1)广告微博关键词倾向性。

对比广告微博和正常微博，广告微博在词语使用和语言组织上与正常微博相比具有一定的规律性。这是因为以下几点:(1)微博广告发布者为了广告能够获得更好的收益，即获得更高的关注度，通常需要使用具有煽动效果的词语，如爆款、打折等。(2)由于广告自身内容决定某些词语的出现频率会明显高于普通微博，如店铺、购买等。

本文使用已标注的广告发布者数据，统计其关键词词频，并将关键词序列按照词频倒排，从而得到广告微博关键词序列A，但广告微博中也存在许多微博常用语，这些常用语在普通微博中同样高频率存在。为此，本文使用同样的方法针对普通微博统计出普通微博关键词序列P。针对某一词语的广告微博关键词倾向性，本文定义如下:

其中:IndexAi、IndexPi分别为词语在序列A、P中的位置;Ii为该词语的广告微博关键词倾向性。计算所有实验语料中所涉及的关键词，按照关键词倾向性排序，得到的前10位关键词如表4所示。由表中数据可看出前10位关键词都与购物类广告有关，表明Ii作为广告倾向性的衡量标准具有有效性。

表4 关键词广告倾向性排序Tab．4 Advertising tendency ranking of keywords

pagenumber_ebook=52,pagenumber_book=1269

序号关键词名称序号关键词名称1现货 6代购2款式 7 长袖3休闲 8 折扣4外套 9 购物5尺码 10全场

由于微博广告发布者具有较为单一的主题(购物、旅游、活动等)，发帖人也具有比较固定的语言习惯，导致广告微博相比普通微博具有较强的模板化特征，所以其文本相似度显著高于普通微博。

2)广告元素数量。

由于自身宣传需要，微博广告发布者通常需要多平台多渠道宣传，为了能够促进多平台互通，许多广告发布者会在个人介绍中加入多种联系方式，包括网址URL、邮箱、手机号、QQ、微信等。而随着个人隐私意识的不断加强和垃圾信息对人们生活影响的不断加深，普通用户对于私密性较强的微信号、QQ等信息的保护意识也在加强，所以，普通用户一般不会在个人信息中透露其他联系方式。因此，会呈现出广告发布者的个人介绍广告元素远多于普通用户的现象，如图1所示。

图1 广告元素出现频率对比Fig．1 Frequency contrast of advertising elements

图1中可以看出，广告发布者账号对应的个人介绍中，含有链接(URL)、QQ号、微信号、手机号的比例远高于普通用户。基于此特点，本文统计每个用户个人介绍中推广元素的数量，并以此作为聚类中的一项特征值。

(b)计算词频。

在美国俄勒冈州、华盛顿州和加拿大的不列颠哥伦比亚省，伐木公司仍然在将砍伐下来的木材顺流漂浮到木材加工厂进行加工处理。在20世纪90年代，太平洋西北地区每年都有100亿板英尺（木料板材体积单位）的木材以筏运或原木的形式顺流而下，如果这些原木中的1%脱离了浩浩荡荡的原木运输大队，并且逃脱了海上浮木收集者的打捞，就意味着每年有1亿板英尺的可销售木材变成了海上的漂流木。但无论是砍伐下来的原木还是死去的整棵树木，只有其中的一小部分能完成从森林到海洋的旅程。

2 聚类算法选择及实验设计

2．1 聚类算法DBSCAN

如上文所述，微博广告发布者在多个特征维度上与普通用户相比具有较为明显的差异;而考虑广告发布者的内部差异，不同的广告发布者，其发帖习惯也有较大区别，这会导致其行为模型的多样化。在这种情况下，为筛选出样本中的微博广告发布者，将其独立为一个或多个簇显然是不合适的，于是本文着眼于聚类问题中的离异点查找，即将聚类方法中的离异点标注为广告发布者。基于这样的要求，本文选取DBSCAN作为本实验所使用的聚类方法。DBSCAN算法为基于密度的聚类算法，与传统的基于层次的聚类算法不同，该算法可以发现任意形状的聚类簇，且可以在需要时输入过滤噪声的参数［12］。

2．2 实验设计

实验设计如图2所示。

3)参数选择:由于DBSCAN中当Eps过大或MinPts过小时，聚类结果将趋近于一个簇，所以本文定义Eps的范围是0．1 ～1．5，MinPts的范围是3 ～ 50。

2)数据标注:对用户进行手动标注以便于评判实验的准确度，标注分为微博广告发布者和普通微博发布者两类。微博广告发布者的行为特征为:发布内容带有强烈的商业色彩或转发大量低质信息等。

1)数据清洗:针对用户，将发帖数小于10的用户不纳入计算范围;针对单条微博，将微博中带有转发含义的字段及“@”符号后的内容进行删除。

HH-2数显恒温水浴锅：金坛市科兴仪器厂；JJ-1精密定时电动搅拌器：江苏省金坛市荣华仪器制造有限公司；101-2A型电热鼓风干燥箱：天津市泰斯特仪器有限公司；玻璃成膜器，20×20cm：实验室自制；XLW智能电子拉力试验机：济南兰光机电技术有限公司。

pagenumber_ebook=53,pagenumber_book=1270

图2 实验流程Fig．2 Process of experiment

3 实验与结果分析

3．1 实验数据及评价标准

目前在微博过滤领域，尚无国际公认的标准测试语料库。本实验使用2755名微博用户的310万条微博数据，提取其中微博文本、用户信息和传播关系信息，并手动标注了2755名微博用户属性，共计2099名普通用户及656名微博广告发布者，所有的用户标注仅用来评判实验的准确度，并未在实验中使用。所有实验都以此作为实验语料，在相同的实验环境下进行。

此处核心微博的定义为:与当前用户发帖内容中高频主题相关的微博。由于微博内容长度限制，通常无法从中提取出确定唯一的主题，所以此处采用关键词作为每条微博的主题，每条微博提取一个关键词序列。使用各微博的关键词序列，统计其中关键词出现的词频，并对其中的近义词进行合并处理，得到关键词的词频序列。由于同一微博用户的微博主题可能会出现迁移，本文取关键词词频序列中的前10位作为高频关键词，以保证能够筛选出其中的广告主题。最终，保留包含这10个关键词或其近义词的微博组成核心微博序列。

其中:A为正确识别广告发布者的数量，CA为实验结果中被标记为广告发布者的总量，TA为数据集中实际广告发布者的总量。

3．2 特征值权重与聚类参数选取

实验中主要涉及聚类参数有:DBSCAN算法中的半径(Eps)和以点P为中心的邻域内最少点的数量(MinPts)。此外，由于不同特征值对结果的影响程度不同，需要对各个特征值赋予权重。本实验对特征值权重与聚类参数的不同组合进行分析，使用同一组数据，测试在不同特征值权重与聚类参数的组合下的准确率、召回率和F值。测试结果如表4所示，其中P1、P2、P3、P4分别代表文本相似度、时序相似度、广告微博关键词倾向性、广告元素数量的权重，且P1+P2+P3+P4=1;P表示准确率，R表示召回率，F表示F值。

通过大量实验发现，当DBSCAN中的半径(Eps)为0．1，以点P为中心的邻域内最少点的数量(MinPts)分别为4或20时，准确率有较为良好的表现。这是因为当Eps过大或MinPts过小时，表示将一个样本识别为离异点的条件趋于宽松，造成漏识别离异点，导致召回率降低;而MinPts过大会导致大量具有独立特性的普通样本被标记为离异点，导致准确率降低。当Eps和MinPts分别为0．1和20时，结果显示，当P1、P2、P3、P4 分别取 0．3、0．2、0．4、0．1 时，F 值达到峰值0．95，表明文本相似度和广告微博关键词倾向性比对于结果的影响要优于时序相似度和广告元素数量。但当分别删去时序相似度和广告元素数量进行实验(即P2=0或P4=0)，结果显示召回率急剧下降，说明这两个特征对于识别广告发布者具有重要作用。

表5 特征值权重与聚类参数对实验结果的影响Tab．5 Influence of eigenvalue weight and clustering parameters on experimental results

EpsMinPtsP1 P2 P3 P4P R F 0．1 4 0．6 0．1 0．1 0．2 0．90 0．77 0．83 0．1 4 0．4 0．3 0．1 0．2 0．85 0．84 0．85 0．1 4 0．5 0．1 0．1 0．3 0．86 0．81 0．83 0．1 4 0．4 0．2 0．1 0．3 0．83 0．85 0．84 0．1 4 0．3 0．3 0．1 0．3 0．85 0．88 0．86 0．1 20 0．7 0．1 0．1 0．1 0．79 0．96 0．87 0．1 20 0．6 0．1 0．2 0．1 0．82 0．96 0．89 0．1 20 0．5 0．1 0．3 0．1 0．87 0．96 0．91 0．1 20 0．4 0．1 0．4 0．1 0．91 0．97 0．94 0．1 20 0．3 0．2 0．4 0．1 0．92 0．97 0．95 0．1 20 0．2 0．0 0．3 0．5 0．91 0．82 0．86 0．1 20 0．4 0．2 0．4 0．0 0．85 0．40 0．55

3．3 对比实验

本文提出了核心微博序列的概念，提取出微博序列中占较大比重的微博主题，从而去除由普通微博与广告微博混杂带来的影响。在此，本文分别使用原微博序列与核心微博序列进行实验对比，使用相同区间的特征值权重与聚类参数进行组合分析。实验结果显示，当特征值权重与聚类参数分别为表6所示的数值时，F值达到峰值。

表6 使用核心序列和原序列准确率对比Tab．6 Comparison of accuracy between core sequences and original sequences

序列 MinPtsP1 P2 P3 P4P R F核心序列5 0．4 0．1 0．4 0．1 0．77 0．90 0．83 20 0．3 0．2 0．4 0．1 0．92 0．97 0．95原序列

从表6可以看出，使用了核心微博序列的实验结果，其准确率、召回率和F值均明显高于使用原微博序列的实验结果。即可证明，使用核心微博序列可以有效地排除用户微博序列中的噪声干扰，提高聚类的准确率。

4 结语

本文分析了中文广告型微博的文本特征以及用户特征，提出了一种广告型微博发布者识别方法，算法效率较高，效果理想。与现有的微博文本过滤算法相比，创新地提出了核心微博序列的概念和聚类算法进行实验，有效解决了分类算法带来的数据标注困难问题。而对比垃圾微博的过滤方法，本文着重关注其中的广告微博，通过核心微博序列及多维特征提取，较为精确地过滤出微博用户中的微博广告发布者。这对于今后的研究，包括微博广告发布者行为建模，情感分析等具有重要意义。

同时，由于微博空间信息量巨大，传播速度快［14］，越来越多的数据必然会使算法效率降低，如何提升算法效率和针对微博数据流进行聚类将成为接下来的工作重点。

参考文献(References)

［1］肖萌萌，卜梦斐，陈丹妮．微博影响力的研究［J］．科学时代，2014(11):552－558．(XIAO M M，BU M F，CHEN D N．Research on the influence of Weibo［J］．Science Times， 2014(11):552 －558．)

［2］ YANG S，LI S， YE X， et al．Content mining and network analysis of microblog spam ［J］．Journal of Convergence Information Technology，2010，5(1):135－140．

［3］ ZHANG Q，MA H，QIAN W，et al．Duplicate detection for identifying social spam in microblogs［C］//Proceedings of the 2013 IEEE International Congress on Big Data．Piscataway， NJ:IEEE， 2013:141－148．

［4］丁兆云，周斌，贾焰，等．微博中基于统计特征与双向投票的垃圾用户发现［J］．计算机研究与发展，2013，50(11):2336－2348．(DING Z Y， ZHOU B， JIA Y， et al．Detecting spammers with a bidirectional vote algorithm based on statistical features in microblogs［J］．Journal of Computer Research and Development，2013，50(11):2336－2348．)

［5］ THOMAS K， GRIER C， SONG D， et al．Suspended accounts in retrospect:an analysis of twitter spam［C］//IMC 2011:Proceedings of the 2011 ACM SIGCOMM Conference on Internet Measurement Conference．New York:ACM，2011:243－258．

［6］ BENEVENUTO F， MAGNO G， RODRIGUES T， et al．Detecting spammers on Twitter［EB/OL］．［2017-05-10］．https://gmagno．net/papers/ceas2010_benevenuto_twitterspam．pdf．

［7］ WANG A H．Don't follow me:spam detection in Twitter［C］//Proceedings of the 2010 International Conference on Security and Cryptography．Piscataway， NJ:IEEE，2010:142－151．

［8］李赫元，俞晓明，刘悦，等．中文微博客的垃圾用户检测［J］．中文信息学报，2014，28(3):62－67．(LI H Y，YU X M，LIU Y，et al．Research on detecting spammer in micro-blogs［J］．Journal of Chinese Information Processing， 2014， 28(3):62 －67．)

［9］赵斌，吉根林，曲维光，等．基于重用检测的微博垃圾用户过滤算法［J］．南京大学学报(自然科学版)，2013，49(4):456－464．(ZHAO B， JI G L， QU W G， et al．Detecting microblog spammers based on reuse detection［J］．Journal of Nanjing University(Natural Sciences)， 2013， 49(4):456 －464．)

［10］马彬，洪宇，陆剑江，等．基于线索树双层聚类的微博话题检测［J］．中文信息学报，2012，26(6):121－129．(MA B，HONG Y， LU J J， et al．A thread-based two-stage clustering method of microblog topic detection［J］．Journal of Chinese Information Processing，2012，26(6):121－129．)

［11］ MANCINI R， CARTER B．Op Amps for Everyone［M］．Oxford，UK:Butterworth-Heinemann，2013:157－158．

［12］于亚飞，周爱武．一种改进的DBSCAN密度算法［J］．计算机技术与发展，2011，21(2):30－33．(YU Y F，ZHOU A W．An improved algorithm of DBSCAN［J］．Computer Technology and Development， 2011， 21(2):30 －33．)

［13］ WEIKUM G．Foundations of statistical natural language processing［J］．Information Retrieval Journal， 2001， 4(1):80 －81．

［14］谢丽星，周明，孙茂松．基于层次结构的多策略中文微博情感分析和特征抽取［J］．中文信息学报，2012，26(1):73－83．(XIE L X， ZHOU M， SUN M S， et al．Hierarchical structure based hybrid approach to sentiment analysis of Chinese micro blog and its feature extraction［J］．Journal of Chinese Information Processing，2012，26(1):73－83．)

作者

赵星宇，赵志宏，王业沛，陈松宇

出处

《计算机应用》 2018年第05期

上一篇：考虑用户特征的主题情感联合模型

下一篇：结合注意力机制的长文本分类方法

《计算机应用》2018年第05期文献

基于可穿戴传感器的人体活动识别研究综述作者：郑增威，杜俊杰，霍梅梅，吴剑钟

基于Dyna框架的非参数化近似策略迭代增强学习作者：季挺，张华

基于局部远亲差分增强的扰动粒子群优化算法作者：王永贵，胡彩云，李鑫

融合Shapley值和粒子群优化算法的混合特征选择算法作者：邓秀勤，李文洲，武继刚，刘太亨

基于熵权Vague 集的多目标决策方法作者：赵庆庆，黄天民

求解动态优化问题的多种群竞争差分进化算法作者：袁亦川，杨洲，罗廷兴，秦进

考虑用户特征的主题情感联合模型作者：许银洁，孙春华，刘业政

基于聚类分析的微博广告发布者识别作者：赵星宇，赵志宏，王业沛，陈松宇

结合注意力机制的长文本分类方法作者：卢玲，杨武，王远伦，雷子鉴，李莹

基于改进的多层BLSTM 的中文分词和标点预测作者：李雅昆，潘晴，．W

面向汉维机器翻译的调序表重构模型作者：潘一荣，李晓，杨雅婷，米成刚，董瑞

改进的显式形状回归人脸特征点定位算法作者：贾项南，于凤芹，陈莹

基于多标签判别字典学习的图像自动标注作者：杨晓玲，李志清，刘雨桐

复杂环境中基于视觉词袋模型的车辆再识别算法作者：王茜，陈一民，丁友东

基于迁移学习的水产动物图像识别方法作者：王柯力，袁红春

基于多角度多区域特征融合的苹果分类方法作者：刘媛媛，王晖，郭躬德，江楠峰

正负关联规则两级置信度阈值设置方法作者：陈柳，冯山

基于节点中心性和社区相似性的快速标签传播算法作者：顾军华，霍士杰，王守彬，田喆

基于文献信息网络语义特征的相似性搜索作者：邱庆羽，李婧，全兵，童超，张利君，张海仙

基于距离类别的多源兴趣点融合算法作者：徐爽，张谦，李琰，刘嘉勇

基于HBase和Hive 的航班延误平台的存储方法作者：吴仁彪，刘超，屈景怡

基于异方差高斯过程的时间序列数据离群点检测作者：严宏，杨波，杨红雨

密码云中基于熵权评价的虚拟密码机调度方法作者：王泽武，孙磊，郭松辉，孙瑞辰

基于改进单类支持向量机的工业控制网络入侵检测方法作者：刘万军，秦济韬，曲海成

面向分布式网络结构的APT攻击双重博弈模型作者：张为，苏旸，陈文武

抗合谋攻击能力可调的有状态组密钥更新协议作者：敖丽，刘璟，姚绍文，武楠

多属性环境下基于容错学习的全同态加密方案作者：白平，张薇

基于集成学习的口令强度评估模型作者：宋创创，方勇，黄诚，刘亮

海量小文件系统的可移植操作系统接口兼容技术作者：陈博，何连跃，严巍巍，徐照淼，徐俊

高维胖树系统中确定性路由容错策略实现作者：徐佳庆，万文，蔡东京，唐付桥，何杰，张磊

杂志信息网