快捷分类

基于谱聚类建模的外来常住人口识别研究

更新时间：2009-03-28

0 引言

随着经济体制改革的推进，城市中外来常住人口迅速扩大，成为了一个不可忽视的特殊群体。常住人口，作为一种统计口径，主要针对地区而言，常住人口与户籍人口的统计口径不同，在社会与政府部门工作中发挥着不同的作用。在当前流动人口规模大、人户分离现象较为普遍的情况下，常住人口更能准确地反映一个地区的人口规模与现状，对于政府制定相关政策与服务措施提供更为有效的信息。所以统计外来常住人口数量对于了解国情国力，制定人口计划和经济、社会发展计划，进行人口科学研究，都有十分重要的意义。

但人口统计一直是一项费时费力的工作。现有的外来常住人口识别方法中，主要靠人工来完成，通过发放问卷的方式或者电话外呼的方式来确认，这种方法不但耗费人力物力，而且效率低下。部分运营商也会采取口径的方式进行定义，但此种定义规则缺乏科学解释性。如何减少人力物力，采用更高效科学的手段对外来常住人口进行识别是一项具有挑战的工作。本文根据移动手机用户驻留数据，使用大数据手段对外来常住人口进行统计，从而为政府提供具有科学解释性的数据支撑，既不用像传统普查方式那样费时费力，也让识别结果更具科学性。

移动运营商所收集的用户驻留信息可以统计用户在本市的驻留天数、驻留时长以及ECI切换数据。其中常住和非常住用户在驻留特征上一定不同，因此通过对驻留信息进行处理形成驻留特征变量，则可使用聚类算法对两类用户进行区分。

研究结果表明，利用机器学习算法可以使用科学的方法对外来常住人口进行识别，且识别准确率较高。

1 背景

人口是一个地区发展最重要的基础，人口的多少与质量直接关系到所在地区的经济水平、生活质量以及未来的发展潜力。人口、资源、环境三者相互影响、相互制约，人口规模的增减会直接影响地区的资源消耗与环境保护这两项指标水平的高低。其中常住人口更能准确地反映一个地区的人口规模与现状，对于政府制定相关政策与服务措施提供更为有效的信息。

华彩的背后，是鲜为人知的付出。但问起演戏的艰辛，赵多娜不愿多说，别看她在戏里扮演了各种类型的角色，生活中的她，其实很安静，从不拿拍戏的辛苦大肆宣扬。“只要是我认定的事情，我都会很坚持，甚至有点固执。就拿演戏来说，我很享受拍戏的过程，拿它当一辈子的事业来做。可能有时候家人朋友会有一些其它建议，比如女孩子要早点结婚生子，可以转做一些幕后工作等等，但我还是会坚持自己的信念。”赵多娜笃定地说。

目前大多数研究都只停留在宏观的常住人口规模预测上，宋汉杰在多模型方法下的地区常住人口规模预测分析一文中，通过运用一元线性回归法、二次指数平滑法、灰色GM（1，1）模型预测法，分别对2013—2020年株洲市的常住人口进行了短期预测。另一项研究也是采用Logistic模型对青岛常住人口进行预测，从而了解青岛人口发展趋势。从以往这些研究中发现，对人口微观上的研究非常少，并没有细分到单个常住人口的识别。

当用户缺乏标签时，对用户的划分则需要用到非监督机器学习算法。无监督学习中最典型的就是聚类算法，聚类可根据用户数据特征，将有相似特征的数据点聚成一组。每一个组都被称作一个集群（簇）。对象之间的相似性可通过解析方式进行定义。存在很多不同的聚类算法，其区别在于衡量对象相似性的标准不同：可通过距离、密度、图论或是统计分布来衡量。

本文采用无监督机器学习算法，挖掘出常住人口与非常住人口的驻留行为特征，对单个用户进行识别，从而便于政府部门进行管理。

2 概述

本文中所研究的数据来自无锡移动通信公司（位于中国江苏省）。下面，我们详述了无锡移动公司目前的相关数据情况。

学员希望的学习内容前三位分别为：临床常用口语（67.02%），文献阅读（46.81%）和临床指南（45.74%）。见表2。

教师在教育改革和高等职业院校建设中处于关键因素和决定要素的位置，提升教师对大数据技术的使用能力，提高教师信息化水平等工作对高等职业院校现在进行的教育改革来讲非常重要。

农谚即关于农业生产的谚语，是农民在长期生产实践活动中总结出来的经验，是农民生产经验的概括和形象的反映，蕴含着丰富的哲理，对于农业生产有一定的指导作用。对农村高中生而言，将农谚引入课堂，寓深奥抽象的哲理于学生熟悉的日常生活中，可活跃课堂气氛，增强教学的趣味性和感染力。例如，讲“物质与意识的关系”时，设置问题：

2.1 外来人口

（4）统计各用户工作日eci类别总数（只统计驻留超过10min 的 eci）

（1）本地号码本地户籍的用户；

总之，加强企业青年人才队伍建设，更好地发挥青年人才在企业生产建设中的主力军作用，是提升企业基层工作水平的关键所在。应把培养造就青年人才作为企业人才队伍建设的一项重要战略任务，开展青年人才职业生涯规划，开展青年人才责任教育，加强青年人才管理制度建设，加大青年人才选任力度，采取及早选苗、重点扶持、跟踪培养等特殊措施，使大批青年人才持续不断涌现出来。为不断提升基层工作水平，推动企业和谐、健康发展，实现“打造世界一流，实现率先发展”目标，提供坚实的人才保障。

（2）本地号码外地户籍本地户口的用户；

（4）谱聚类

（4）外地号码的用户。

其中第一类和第二类人均不归类为外来人口，所以常住外来人口识别只需针对第三类和第四类用户进行分析。

图1 全网用户分类图

2.2 数据集

为了保护用户隐私，目前无锡移动仅能为我们提供一种类型的数据：用户驻留数据。驻留数据主要包括用户在某个时刻某一小区下的驻留时长。

本文用于实验的是无锡2月用户驻留数据（包含2/3/4G所有数据），按照以上四类用户共分为四个数据集，包含以下字段：用户手机号，小区唯一标识码，秒级驻留时长，时间，以及一些标签变量。其中第一类数据集中包含236个用户，第二类数据集中包含182个用户，第三类数据集中包含178个用户，第四类数据集中包含199个用户，共795个用户。本文用于建模的主要为第三类和第四类用户。

3 建模与算法

本文的目的是区分外来流动人口和外来常住人口。但数据中缺乏标签，因此选择无监督学习中的聚类算法完成两类人口的区分，主要分为以下几个步骤：

（1）数据预处理。即将数据中的异常值和缺失值从数据集中剔除；

（2）变量转换。即对驻留数据进行变形转换，运用统计手段处理产生新的可用变量；

（3）变量筛选。目的为避免某些相关性较强的变量影响最终的聚类结果；

（4）数据标准化。目的是为消除各变量由于量纲不同所产生的影响；

为了保护客户隐私，运营商只能提供用户驻留数据。未经处理的驻留数据无法用于用户聚类分析，因此要对驻留数据进行转换，运用统计手段处理产生新的可用变量。根据用户驻留数据进行如下统计分析，形成以下15个新变量∶

3.1 数据预处理

前面已经提到，本文将使用到用户驻留数据，所以在建模前需要对数据中的缺失值和异常值进行处理。通过对数据进行观察发现，有些数据中的用户标识码和小区标识码存在缺失，对于此类数据，我们选择行删除的方式进行处理。有些用户的驻留时长也会存在异常值，理论上驻留时长应该在0-3600s之间，对于大于3600s和小于0s的数据需要删除。

3.2 变量转换

（5）聚类模型相关机器学习算法。

（1）统计各用户一个月中驻留的天数总和

（2）统计各用户一个月中驻留的小时数总和

式中，Pi为污染物单因子指数；Ci为实测浓度；S为土壤环境质量标准限定值（表5）。Pi值越大表示该地区受污染越严重；Pi≤1时，表示该地区土壤未受污染；当1＜Pi≤2时，则表示该地区土壤受轻度污染；当2＜Pi≤3时，表示该地区土壤受中度污染；当Pi＞3，则表示该地区土壤受重度污染。本研究采集的28个土壤样品pH均小于6.5。

（3）统计各用户一个月中驻留的秒数总和

本刊讯 11月30日下午，省十三届人大常委会第七次会议在济南闭会，表决通过了有关人事任免案，有关法规、决议、决定和有关报告等。省人大常委会党组书记、副主任于晓明主持会议并讲话；副主任王随莲、王良、齐涛、王云鹏、王华出席。

在外来人口的定义上，本文根据运营商的要求对外来人口做出如下定义。根据手机号码归属地和身份证信息共分为以下四种用户类型，如图1所示。

（11）统计各用户休息日驻留的小时数总和

（6）统计各用户工作日eci总和

心理问题是一个大问题，我们绝不能等闲视之。这里提供的几条途径供大家参考，让我们尽快帮助学生树立写作的信心，引导学生走出心理的沼泽，到达理想的写作彼岸。

4.1 结论从国际视野下看体育课程体系建设，不仅启发我们站位要高，立足大教育，大健康，建设大课程，而且，还要宽视野，使课程内容尽量丰富多样，让学生们有更多的自主选择学习的机会，便于激发培养学生学习体育的兴趣。尤其是采取灵活多样的课程实施策略，更让我们认识到一体化体育课程实施要形式灵活，途径多元等。

（8）统计各用户工作日驻留的天数总和

（9）统计各用户休息日驻留的天数总和

（10）统计各用户工作日驻留的小时数总和

由表5可以看出，饲喂复方阿胶浆药渣对驴血红蛋白含量(Hb)、红细胞压积(HCT)、红细胞计数(RBC)、平均红细胞体积(HCT)、白细胞计数(WBC)、淋巴细胞数(LYC)、淋巴细胞百分比(LY)等参数均没有显著影响（P＞0.05）。

（5）统计各用户休息日eci类别总数（只统计驻留超过10min 的 eci）

（12）统计各用户工作日驻留秒数总和

（13）统计各用户休息日驻留秒数总和

（14）统计各用户平均每天驻留时长（按小时统计）

（7）统计各用户休息日eci总和

（15）统计各用户平均每天驻留时长（按秒统计）

1.2 手术治疗对于既可行开颅夹闭手术又可行血管内介入手术者，优先推荐血管内介入治疗；对于大脑中动脉瘤患者，首先推荐开颅夹闭；对于后循环动脉瘤患者，均推荐血管内介入治疗。根据推荐治疗方式，结合患者及其家属意愿，决定最终手术治疗方式。排除血管内介入治疗及保守治疗病例后，共纳入57例前循环颅内动脉瘤破裂患者。其中，55例(96.5%)在发病72 h内接受手术干预，2例(3.5%)在发病72 h后接受手术干预(分别于发病后第2.5、3天入院)。所有患者均在全麻下，通过翼点入路或眶上外侧入路进行开颅动脉瘤夹闭术。52例患者术后骨瓣复位，5例患者因合并脑水肿行去骨瓣减压术。

3.3 变量筛选

在进行聚类分析时，若各变量间存在强相关性，则会导致相关变量权重增大，影响最终聚类结果。因此在做聚类分析之前，需要通过相关性检验对变量进行筛选。

Pearson相关系数又叫做Pearson积矩相关系数，是一种统计学参数，一般用来定量的衡量变量之间的相关关系，其计算公式如公式（1）所示：

上式中，变量X是所有点的x坐标的集合,变量Y是所有点的y坐标的集合，N表示点的总个数。Pearson相关系数的绝对值越大，反映变量之间的相关性越强。当相关系数越接近于1或-1，表示相关度越强；当相关系数越接近于0，表示相关度越弱。当相关系数大于0时，表示为正相关；当相关系数小于0时，表示为负相关。通常情况下可以通过相关系数的绝对值取值范围判断变量的相关强度，相关系数和相关强度的关系如表1所示。

表1 相关系数和相关强度关系表

相关系数绝对值 [0,0.2] (0.2,0.4] (0.4,0.6] (0.6,0.8] (0.8,1.0]相关强度弱相关或无相关弱相关中等相关强相关极强相关

图2为各变量之间的相关性可视化图，通过图形可以更直观的看出各变量之间的相关性，根据相关系数和相关强度关系表可以删除具有强相关的变量。

图2 变量相关性可视化图

3.4 数据标准化

由于转换的新变量在量纲上不同，因此进行聚类之前要先对变量进行无量纲化的处理，本文采用了min-max标准化，即对原始数据进行线性变换，使结果映射到[0,1]之间，公式为：

其中max为样本数据的最大值，min为样本数据的最小值。

虽然“智”与“勇”是内政与外交的需要，是贵有天下的君主所必需的品质，但在孟子那里，二者已经与“仁”不直接联结，而降低为一般性的德目。

3.5 聚类模型相关机器学习算法

完成变量筛选及无量纲化处理后，则可对用户进行聚类分析。聚类就是按照事物的某些特征，把事物分成若干类或簇，使得在同一个类内的对象之间最大程度相似，而不同类之间的对象最大程度不同。聚类作为无监督学习方法，广泛地应用在了各个领域，本文尝试了以下四种聚类算法：

LIU Panpan, JIA Lian, LYU Linlin, et al. Chemical forms and bioavailability of heavy metals in soil around an iron mine in Anshan[J]. Conservation and utilization of mineral resources, 2018(6):127-131,139.

（1）均值聚类

首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下的其他对象，则根据他们与这些聚类中心的相似度（距离），分别将他们分配给与其最相似的聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。K个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

（2）Ward层次聚类

Ward层次聚类方法具体的可以分为两大类，第一，分裂型层次聚类方法，即在聚类开始时假定所有数据点都属于同一个类，在迭代的过程中，利用相应的准则一个类被一直的分解，使之成为更小类，直到满足预定的条件时，分裂的过程停止。第二，合并型层次聚类方法，相反的，设每个样本点都是一个独立的类，之后把相似度高的类逐渐合并，当满足算法的终止条件时，停止迭代。

（3）DBSCAN算法

是一种基于高密度联通区域的聚类算法，它将类簇定义为高密度联通区域的聚类算法，它将类簇定义为高密度相连点的最大集合。它本身对噪声不敏感，并且能发现任意形状的类簇。DBSCAN算法需要输入两个参数：一个参数是半径（Eps），表示以给定点p为中心的圆形领域的范围；另一个参数是以点p为中心的领域内最少点的数量（min_sample）。如果满足：以点p为中心，半径为Eps的邻域内的点的个数不少于min_sample，则称点p为核心点。

（3）本地号码外地户籍外地户口的用户；

谱聚类原理上是一种基于图论的聚类方法。将样本看成顶点，样本的相似度看作带权边。这样，把样本集划分成K个簇的过程就等同于一个图的分割问题。要求组间相似度低，组内相似度高。如图3所示，谱聚类能对任意形状的样本空间聚类，并能获得全局最优解，其基本思想是通过对样本数据的拉普拉斯矩阵进行特征分解而得到的特征向量进行聚类。假定将每个数据样本看作图中的顶点V，且样本中的数据对之间都有一定的相似性，由样本间的相似度，将顶点间的边E赋权重值W，得到一个无向加权图G = （V，E），V = {v1，v2，…，vn}表示点集。图G中，可将聚类问题转化为在图G上的图划分问题。图论中的划分准则一般有Minimum Cut、Normalized Cut、Ratio Cut、Average Cut、Min-max Cut、MN Cut等，划分准则的好坏对聚类结果的优劣产生很大影响。

图3 谱聚类无向图划分图

4 结果分析

本节主要从下几个部分展示模型的结果：

（1）列出两到三个选择的特征变量

（2）展示聚类中的最优聚类个数

（3）列出两种聚类效果的比较结果

（4）展示模型最终聚类效果

（5）对比口径法和聚类法结果

4.1 特征标量的选择

通过相关性检验对变量进行筛选后，结合最终聚类效果共保留了十一个变量。其中用户一个月中驻留的天数总和是最重要的特征之一。从经验判断，一般常住人口一个月中驻留的天数一般较长。

用户平均每天驻留时长也是另一个重要的特征向量。一般常住人口不仅在一个月中驻留的天数较长，且每天的驻留时间也会比较长。通过这个变量可以排除一些每天路过无锡的过路人。

4.2 最优聚类个数的确定

在进行聚类分析前，首先要确定最优聚类个数。本文结合轮廓系数和业务背景对K值进行了选择。其中轮廓系数法结合了凝聚度和分离度，可以以此来判断聚类的优良性，其值在-1到+1之间取值，值越大表示聚类效果越好。于是我们可以计算在每个簇数条件下的轮廓系数，当轮廓系数取最大时，其相应的簇个数是最好的。如图4所示，轮廓系数方法建议最优簇数为K＝2。结合实际情况考虑，需要人群区分为非常住和常住，也是两类的情况。因此在最终的聚类算法中，将K值设为2。

4.3 多种聚类效果的比较

本文尝试了k-means、层次聚类、DBSCAN、谱聚类共四种聚类算法。以上四种算法在数据集的聚类效果上差别较大。以下图形展示了在第三类数据集上各算法的聚类效果比较，各聚类算法在第四类数据集上的表现与第三类数据集类似。

下图中的横坐标表示用户一个月中的驻留天数总和，纵坐标表示用户平均每天驻留时长。一般常住人口在行为特征上表现为一个月中驻留天数长且每天驻留时间也较久。从各聚类结果中可以看出，只有谱聚类能够很好地挖掘出此类行为特征。

图4 轮廓系数图

图5 聚类结果二维分布图

4.4 最终聚类效果

衡量各种聚类效果，本文最终选择谱聚类作为最终聚类算法。谱聚类不对样本空间的整体结构做任何假设，能够识别样本点在空间上的非凸分布。因此，谱聚类方法适用于具有任何分布形状的样本空间，从而求解到全局最优解。同时，谱聚类算法在实现上仅涉及标准的线性代数方法，易于实现。而传统的k-means聚类中，当样本维数增大时，k-means计算会很困难。因为在k-means中，输入计算的是欧式空间中的原始向量。而且k-means求得的是一种局部最优策略，SSE不一定是最小的。

图6、图7分别为第三类和第四类用户样本数据集的最终聚类效果图，从图中可以看出聚类效果较好地区分了外来常住与非常住人群。外来常住人口在特征上基本表现为一个月中驻留天数长且每天驻留时间也较久，而非常住人口基本表现为驻留天数短。将聚类标签与运营商口径法的结果进行对比，用户标签完全相同的平均占比高达92%以上。

图6 第三类用户聚类效果图

图7 第四类用户聚类效果图

4.5 口径法和聚类法结果对比

表2、3分别为本地号码外地户籍外地户口和外地号码的结果对比。无锡移动通过口径法对外来常住人口进行了判断，认为除本地用户外，当月每天晚9点至第二天8点时间内驻留超过5小时并且驻留7天以上的人即为外来常住人口。通过对比口径法的结果，本地号码外地户籍外地户口这类用户中，聚类法得到的结果与口径法结果完全一致的用户有163个，占总用户数的91.57%；在外地号码这类用户中，聚类法得到的结果与口径法结果完全一致的用户有186个，占总用户数的93.47%。

在本地号码外地户籍外地户口这类用户中，口径法判断为常住，而聚类法判断为非常住的用户有两个，从驻留原始数据中可以看出，这两个用户2月在无锡分别只驻留了5天和6天，且为连续驻留，理论上不应认为是常住人口。而口径法判断为非常住，聚类法判断为常住的用户有13个，这13个用户2月在无锡最少驻留12天，且每日驻留时间较长，理论上应判断为常住。外地号码这类用户中的情况也是如此。

表2 本地号码外地户籍外地户口结果对比表

口径法聚类法非外来常住用户数外来常住用户数合计用户数非外来常住用户数 1 1 2 1 3外来常住用户数 1 3 1 5 2 1 6 5合计用户数 2 4 1 5 4 1 7 8

表3 外地号码结果对比表

口径法聚类法非外来常住用户数外来常住用户数合计用户数非外来常住用户数 1 8 0 2 1 8 2外来常住用户数 1 1 6 1 7合计用户数 1 9 1 8 1 9 9

5 总结

本文通过对用户驻留数据进行转换处理，形成用户驻留行为特征变量，并采用多种聚类算法对外来常住人口进行识别。最后选取了计算速度快且能产生全局最优解的谱聚类算法进行建模预测。预测结果表明预测精度较高，与口径法判断结果基本一致，且能识别出口径法中无法判断的异常事件。此模型不仅可以为政府部门节省人力物力资源，也能有力支撑运营商在外来常住人口市场营销服务工作的开展，为市场部门提供精细化营销所必须的分析支撑服务。

作者

徐珊珊，唐大鹏，梁伟明，董会，孙炜程

出处

《江苏通信》 2018年第02期

上一篇：基于用户位置信令在城市交通规划中应用的大数据模型挖掘

下一篇：基于数据关联与轨迹评估的多目标跟踪

《江苏通信》2018年第02期文献

行业要闻 2009/03/28

基于海量数据的VoLTE用户语音感知系统研究作者：朱伟，艾怀丽，张桂荣，赵志扬，张晶，梅明涛

高铁场景LTE网络负荷评估及容量提升研究作者：谷俊江，张进，杨福理，李巍

流量漫游费取消对网络的影响探讨作者：梁雪梅

走近未来网络之WiFi篇作者：许志坚，谭航

基于客户感知的端到端客服智能监控技术研究作者：王璞

基于千兆级应用的智能家庭宽带网络部署研究作者：李胜，雷景智

传统通信机房DC化改造初探作者：包志凯

基于用户位置信令在城市交通规划中应用的大数据模型挖掘作者：赵越，王瑜，孙宏，刘芳琦，鲍丽娜，兰婷

基于谱聚类建模的外来常住人口识别研究作者：徐珊珊，唐大鹏，梁伟明，董会，孙炜程

基于数据关联与轨迹评估的多目标跟踪作者：程艳云朱松豪H

精细化模型与大数据分析在城域网网络规划中的应用作者：叶春，高智科

基于聚类判别模型的网约车鉴别研究作者：冷婷，闫兴秀，余健，谈炜，孙娴

基于MIC的江苏省邮电业务数据分析应用作者：郝诗佳

基于大数据的工程管理信息化平台作者：邰强，宋满

基于GIS和大数据的运营监控管理系统设计与实现作者：施晓光

基于Kubernetes的PaaS平台研究与实践作者：宗序梅，任彦辉

春之声作者：朱新煜

杂志信息网