快捷分类

基于随机森林的老年人居住偏好预测研究*

更新时间：2009-03-28

1 引言

我国当前已进入老龄化社会，老龄化的趋势仍在加速[1,2]。养老事业一方面面临着资金投入不足、养老机构建设和养老服务发展滞后的问题，另一方面已建成的养老机构存在着大量的床位和服务闲置的情况，极大地浪费了宝贵的社会资源[3,4]。如何能精准地了解老年人真实的养老需求成为养老管理机构的一大难题。而老年人的居住偏好很大程度上决定了其养老方式的选择，不同的养老方式意味着不同的养老服务的需求，所以对老年人居住偏好进行预测很有必要。

居住偏好预测是一个多分类问题，本文将居住偏好分为三类进行研究，分别是：与子女共同居住、独居和居住在养老机构。在现实生活中，前两类远多于最后一类，因此居住偏好预测又是非平衡数据分类问题，本文将最后一类定义为少数类。传统的单分类器容易偏向于多数类，导致少数类的分类效果较差[5]，而本文中预测少数类对养老机构有更重要的意义。通过对少数类训练样本进行过抽样，可以改善单分类器的预测效果，但是很容易产生过拟合现象，因此，单纯使用传统分类器不能满足居住偏好预测的需要。另外，影响老年人居住偏好的因素有很多，怎样在类不均衡的情况下从大量特征中选择合适的特征子集，以降低分类算法学习成本，提高分类器的泛化能力成为研究的重点。

本文使用CHARLS(China Health and Retirement Longitudinal Study)数据，首先从问卷中提取大量可能影响老年人居住偏好的因素;然后采用改进的基于OOB(Out Of Bag)错误率的随机森林RF(Random Forests)特征选择方法进行特征选择;最后利用多棵分类与回归树CART(Classification And Regression Tree)组成的随机森林建立老年人居住偏好预测模型，为国内养老事业的精准化决策提供了一种依据。

2 研究现状

近年来，国内的有关养老需求预测的研究开始受到重视，目前的研究工作主要分为以下几类：

移动学习交互系统学生客户端使用包括Android智能手机等基于Android操作系统的移动设备，通过3G/4G上网或Wi-Fi无线网络连接服务器端，进行课程学习。教师客户端使用PC电脑，通过互联网连接WWW服务器，管理课程资源，查看统计数据。移动学习交互系统服务平台主要由资源服务器和数据库服务器组成。客户端和服务器端采用HTTP协议通信，利用JSON或HTML格式传输数据。

鉴于编辑部里有好几个来自川渝的编编。夏虫不敢自诩很能吃辣，但虫子绝对是来自大西北的一枚“辣丫儿”无疑。吃面前在碗里加一勺辣椒，是我面对生活的最后一点儿尊严。而麻辣烫、酸辣粉、辣条、鸭脖……一切跟辣有关系的食物，可以说是激励夏虫在冬天继续维持生活的大半部分动力了。当我知道这次聚餐跟其他编编一起吃火锅时，面对桌前一半清汤一半辣汤的锅底，理智告诉我要少吃辣，但手一定会不听使唤地又一次伸向辣锅……哎，暴露了。

(1)通过当前人口分布数据，对未来一段时间内的老龄人口和高龄人口进行预测，根据老龄和高龄人口的变化趋势预测高峰期到来的时间，同时根据人口变化趋势和人均养老资源配置来指导养老机构对资源的投入和分配。如文献[3]对上海市老龄化高峰期养老设施需求进行了预测；文献[4]重点对上海市养老机构资金需求和上海人口未来医疗资源需求进行了预估。

c分别从强特征集和弱特征集中选取训练特征。

这种传统的利用统计方法对数据进行整体分析的方式，考虑的因素较少，一般不超过10个，而且往往是分析单因素对目标变量的影响，很难顾及因素之间的相互联系。这种方式虽然可以从整体上了解发展的趋势，但难以灵活地调节粒度，对不同层面进行精准预测，更无法从个人层面针对每个人的情况进行预测。而对个人而言，更关心的往往是后者。

随着数据的积累，数据中隐含的知识越来越受到重视。数据挖掘技术已经在各行各业得到了广泛的应用，但在养老领域目前应用得比较少[5,7,8]。大数据的发展使得数据挖掘所要面对的数据特征数也急剧增长，如何选出合适的特征子集成为提高数据挖掘质量的关键点。随机森林可以快速地分析相互关联的特征并且具有很好的鲁棒性[9,10]。文献[10]阐述了基于随机森林的特征重要性度量的原理和方法，并且在高维数据集上进行了实验，证明了随机森林特征选择的有效性；文献[5]通过对少数类采用SMOTE(Synthetic Minority Over-sampling TEchnique)过抽样和对多数类欠抽样的方式提升集成算法在类不均衡数据集上的预测性能，该方法考虑了类不均衡对模型训练、分类的影响，但没有考虑对特征选择的影响；文献[11]在特征重要性度量时，改变了样本抽样方式，使每棵决策树的样本集达到类平衡，然后使用k折交叉验证计算特征重要性，但该方法主要针对二分类问题，并且没有充分利用袋外数据。

本文在借鉴上述已有工作的同时，从居住偏好入手，选取了大量可能对老年人居住偏好产生影响的因素。通过方差分析和随机森林特征选择，挖掘出了影响老年人居住偏好的重要因素，并首次从个人层面对老年人个体的居住偏好进行了预测。预测的结果既可以指导老年人个人的养老安排，也可以使养老事业决策部门精确地了解到不同社区之间养老需求的差异，对养老服务精准化建设具有重要的借鉴意义。此外，针对老年人居住偏好分布不均衡的问题，对随机森林特征选择算法进行了改进，提高了类不均衡情况下随机森林特征选择的准确度。

在领域的多元化发展上，华谊兄弟涉及的行业领域种类丰富，不仅在影视娱乐业、艺人经纪上发展较成熟，现在更是朝实体化娱乐和互联网娱乐进行华谊品牌的延伸，具体已有文化主题小镇、电影院以及网络游戏等进展，这些领域为消费者提供选择华谊品牌的更多机会，为华谊品牌市场的拓展注入动力。

3 基于随机森林的特征选择

3.1 随机森林特征选择概述

随机森林是一种基于决策树的集成算法，由多棵决策树：

组成，其中，x为随机森林的输入向量，k为第k棵决策树，T为决策树的数量，{Θk}是独立同分布的随机向量[10]。训练时，通过Bagging方法随机抽取样本集和特征集训练不同的决策树；分类时，每棵树对类别进行“投票”决定最终分类结果。随机森林特征选择过程是通过迭代生成随机森林，每轮迭代后对特征重要性进行排序，剔除不重要的特征，直至符合结束条件。所以，随机森林特征选择的关键在于对特征的重要性进行评估。

3.2 特征重要性评估方法

随机森林特征重要性评估计算方法主要分为两种，即根据Gini指数或袋外数据错误率计算得到，分别使用和表示特征j的重要性。

首先采用单变量特征选择对所有特征的重要性排序，从大量特征中选取对老年人居住偏好影响较大的50个特征，然后使用基于随机森林的特征选择算法从中剔除冗余特征。经实验分析，在达到近半数特征时，模型的性能提升变缓，所以最终选择重要性评分较高的24个特征。针对计算过程中类不平衡问题对特征选择结果的影响，本文使用改进的基于OOB错误率的随机森林特征选择方法进行特征选择，特征选择流程如图3所示。

1.发现腹泻仔猪，及时隔离到清洁、干燥、温暖的猪舍中，加强护理，及时清除粪便和污染物，防止病原的传播，对症治疗，并对同窝仔猪进行药物预防。

Gini指数法是利用随机森林中分类树在构造过程中每次分裂都会挑选分类能力最强的特征的原理，计算每个特征对降低Gini指数的贡献。Gini指数的计算公式：

其中,K为目标类别数，pk为第k类的相对频度。

特征j的重要性计算公式：

(1)

其中,n为随机森林中决策树的数量，Mi表示特征j在第i棵树中出现的次数，pml和pmr分别代表由节点m分裂的两个新节点的相对频度，GIml和GImr分别代表它们的Gini指数。

①对特征的值进行升序排序，使用目标类别改变时对应的值作为临界划分区间；

OOB错误率法是指在随机森林的每棵树中，对特征的袋外数据进行扰动，计算扰动后分类错误率与扰动前分类错误率的增加量，所有树的平均值即为特征的重要性。

特征j的重要性计算公式：

a迭代计算每棵决策树中特征j的重要性；

其中，为第i棵树OOB数据的观测例数，I(g)为示性函数，两值相等时取1，不等时取为第p个观测的真实结果，为扰动前第i棵树对OOB数据第p个观测的预测结果，为扰动后第i棵树对OOB数据第p个观测的预测结果。

3.3 针对多分类和类不均衡情况的改进

由公式(1)可知，采用Gini指数时，连续型特征和分类数多的特征倾向于拥有更大的Mi值，且当候选分割较多时，即使变量没有分类作用，也可能使Gini指数降低，从而更容易选为分支变量，导致其重要性被高估。所以，Gini指数法会偏向于连续特征和分类数较多的特征。

该反应破坏了碱式碳酸铜薄膜，反应生成的Cu2+进入电解液中，从而影响阴极锌质量和电流效率，且破坏导电片的保护膜，使铜导电片继续被腐蚀。此外，碱式碳酸铜的分解温度为220 ℃，溶解于100 ℃水中[4]，所以在电解槽上并不会发生碱式碳酸铜的分解反应。

使用OOB错误率，当同时存在连续特征和分类特征或分类特征水平数不同时，的准确性不受影响。但是，在分类数据不平衡时，对小类影响大的特征在扰动前后OOB错误率：

变化微弱，导致特征的重要性不能被正确地评估。

鉴于上述情况，本文针对多分类和数据不均衡问题对OOB错误率的特征重要性评估方法进行了改进，提出基于OOB错误率的非平衡数据集特征重要性评估方法SSOOB(Stratified Sampling OOB)错误率法。SSOOB方法改变了随机森林在训练时样本和特征的抽样方式，采用分层抽样，使每棵决策树的训练样本的类分布接近于平衡，并使训练特征集包含足够的强分类特征。另外，在计算OOB错误率时，采用抽样后均衡的袋外数据替代真正的袋外数据，增强算法对小类的重视程度，提升特征重要性评估的准确性，进而改善类不均衡问题下特征选择的结果。

4 居住偏好分析与预测

老年人的居住偏好往往会随着时间和生活环境动态改变。究竟哪些因素会对老年人的居住偏好产生显著影响，哪些因素的影响不明显，这个问题目前没有明确的答案。不同的研究往往有不同的结果，有时候甚至得到相反的结论，所以有必要找出对老年人居住偏好产生重要影响的因素。另一方面，利用相关影响因素对老年人个人的居住偏好进行分类预测，既可以对其养老选择提供指导，也可以为养老事业的精准化决策提供参考依据。目前，还没有从个人层面对老年人个人居住偏好进行分类预测的相关工作。以下将结合前文分析的内容与结论对老年人的居住偏好进行分类预测。

4.1 问题描述

本节期望通过特征选择，在老年人的个人基本情况、医疗健康情况、家庭环境和社区环境等信息中找出对居住偏好影响显著的特征，并根据这些特征对其居住偏好进行分类预测。定义有n个老年人，每个老年人具有p个特征值，即:

X={X1,…,Xp}∈Rn*p

预测值为:

Y=f(X)={y1,y2,…,yi,…,yn},yi∈{0,1,2}

其中，yi=0表示与子女共同居住，yi=1表示独居，yi=2表示居住在养老机构。

4.2 数据来源

本研究的数据来源为CHARLS全国基线调查的问卷数据。该调查覆盖了全国450个村级单位，约1万户家庭中的1.7万人[12]。数据包括了老年人的个人基本信息、家庭结构和经济支持、健康状况、体格测量、医疗服务利用和医疗保险、工作、退休和养老金、收入、消费、资产，以及社区基本情况等信息[12]。

4.3 数据预处理

CHARLS数据作为调查问卷数据的汇集，存在着大量的缺失值、文本、异常值和不相关数据等问题，直接在原始数据集上进行数据挖掘是不可行的。为了提高数据挖掘的质量，首先对数据进行预处理。预处理包括特征选取、数据清理、数据离散化、特征选择和特征提取五步，如图1所示。

Figure 1 Data preprocessing图1 数据预处理

(1)特征选取。

虽然CHARLS数据的针对性很强，覆盖面也很广，但很多有价值的信息并未直接给出，需要通过统计、计算和转换，把可能对居住偏好产生影响的特征从大量数据中提取出来。例如子女的数量、性别分布、年龄分布和受教育水平等被认为是有显著影响的因素[2,3]，而这些特征并没有直接给出，需要从数据中提取。

对于低收入群体，具有更高的近邻信任会做出更偏向远期的决策。启动参与者的近邻信任，更高的近邻信任水平同样会减少低收入群体的短视行为。但在高收入群体当中，近邻信任的差异不会带来跨期选择的差异。

问卷的数据涉及到很多方面，本文根据相关文献[1 - 4,6,13]，挑选和提取出最有可能对居住偏好产生影响的因素。通过人工选择与提取，从问卷中获得了146个特征，它们涵盖了老年人个人基本情况、医疗健康情况、家庭环境和社区环境四大类，如图2所示。

①个人基本情况选取性别、年龄、受教育程度、是否参加过成人教育、是否从事农业生产等特征；

②医疗健康情况类选取日常生活能力ADL(Activity of Daily Living Scale)、是否有医疗保险、是否患有慢性病、社交活动频次、是否有记忆功能障碍等特征；

③家庭环境选取是否有配偶、家户成员数量(不包括本人及配偶)、房屋建筑面积、是否通电、子女受教育水平和是否有单身子女等特征；

④社区环境选取社区内的配套设施比如活动场所的数量、是否有养老院和社区内其他的因素如社区所处的区域类型、社区内入住养老机构的老年人比例等特征。

在进行施工时，由于该材料的固化时间较快，因此，在进行浇筑或是摊铺施工时，必须做好材料的质量控制，一般情况下，在处理水分蒸发问题上可以采取喷雾的方式对路面的质量进行控制。其次，在进行路面开槽的过程中，需要使用抗滑构造的方式进行处理，不能直接在路面上进行吹干就施工。此外，钢纤维混凝土路面的板面长一般为6～10m，并且最大面板的尺寸需要≤8×12m，在实践过程中，若钢纤维的掺量较大，在尺寸选择上需要采取最大值，若掺量较小，则选择最小值[1]。

(2)数据清理。

针对选取的数据，首先剔除其中的文本和异常值，并对缺失值所占比例较小的特征，采用自动替换的方式处理缺失值。自动替换时，分类属性采用最常见的值替代，连续属性采用平均值替代。对于连续型数据，如家庭收入、生活支出等，进行了噪声平滑处理。

(3)数据离散化。

数据离散化可以减少连续属性的值的个数，从而缩减模型的计算时间，提升模型的推广能力。本文采用改进的ChiMerge方法离散化[14]，步骤如下：

(2)OOB错误率法。

⑥重复步骤②～步骤⑤，直到剩下符合要求的特征数。

③合并卡方值最小的区间；

④重复步骤②、③直至最大区间数符合要求。

(4)特征选择。

教学实验室主要面向本科生，用于本科实验教学。学生通过实验课对所学课程进行感性认识和动手能力培训，该类实验室的特点是量大面广，人员流动性大。随着各学院组建集中的本科实验教学中心，形成了教辅人员准备实验、教师讲授实验、学生操作实验的格局，这种“管教学”分立的方式，优点在于分工明确，不足是三者之间的交流有时脱节，出现管理空档。同时学生实验课门数多，每门课的课时紧张，因此安全环保教育往往被忽视，也未施行准入制度，易出现操作不当引起的安全隐患、乱丢乱倒有毒有害物质。

为了找到对居住偏好影响显著的特征，减少模型的计算量，提高泛化能力，本文针对人工选取的146个特征进行特征选择，保留其中有显著影响的特征。单变量特征选择对每个特征和响应变量进行测试，衡量该特征和响应变量之间的关系，这种方法简单、易于运行，对找到影响老年人居住偏好的主要因素有较好的效果。然而单变量特征选择没有考虑特征之间的关系，容易出现冗余特征，影响预测模型性能。通过基于随机森林特征选择算法可以很好地剔除冗余特征[10,14]。所以，本文采取单变量特征选择和基于随机森林算法的特征选择相结合的方式共同完成特征选择，如图2所示。

Figure 2 Feature selection图2 特征选择

(1)Gini指数法。

Figure 3 Improved feature selection processing图3 改进的特征选择流程

改进的基于OOB错误率的随机森林特征选择方法具体计算过程如下：

①将样本和特征分层。

a将样本集按照类别分层并计算小类样本数M；

b按照单变量特征选择中特征的重要性将特征划分为强特征集和弱特征集。

实际做法：两个学生之间保持2～3米的距离，相互之间开展传接球，对比哪一组在规定的时间内成功传球的次数最多。

②分层迭代为每一棵决策树选取样本和特征。

a采用Bootstrap方法分层抽样，使所有类的样本数达到M，生成训练样本集；

b使用同样的方法生成平衡的OOB样本集；

莫言用优美的笔调营造了一个生机弥漫的红高粱世界。书中无处不在的茁壮、浓密、顽强的红高粱隐喻着生命的顽强，无边无际的高粱地是高密人爱恨情仇、精忠报国的场所。生活在汪洋血海的高粱地里的高密人，虽然面临贫穷、仇恨和死亡等痛苦和磨难，但同时逆境也激发了他们昂扬的斗志和张扬的个性。个体生命的张扬、毁灭、肢解都与红高粱地相融合。

(2)通过问卷调查，对可能影响老年人居住安排的因素进行统计，使用Logistic回归来分析各个影响因素的显著性水平，从而确定真正影响老年人居住安排的因素。如文献[1]考察了影响农村老年人居住安排和居住意愿的因素；文献[6]考察了影响城市老年人居住安排和居住意愿的因素；文献[2]以北京市西城区为例，考察了影响养老方式的不同因素。

③迭代训练每棵决策树。

④迭代计算每个特征的重要性。

(6) 基于车站所处的地质条件以及基坑本身的结构特点，对中间支撑柱采用下部定位器加上部丝杠的方法进行定位。其中，定位器对钢管柱下端进行定位，丝杠则对其上端进行定位，以减小施工偏差，方便施工操作，以及节约工程成本。

b对所有决策树中特征j的重要性求均值，得到特征j的最终重要性。

⑤对所有特征按重要性排序，剔除得分最低的特征。

②计算每一对相邻区间的卡方值；

其中，在每棵决策树中，特征j的重要性计算方法如下：

①计算相应的OOB错误率err_1；

②对特征j的袋外数据进行扰动，再计算相应的OOB错误率err_2；

③计算特征重要性：err_2-err_1。

(5)特征提取。

为了进一步提升模型的性能，本文采用主成分分析法，将24个独立特征转换为11个复合特征，这11个复合特征保留了原24个特征的90%的信息量。

经过以上5步预处理，目前的数据集已经比较适合挖掘算法进行训练和分类预测。

因此，从空间布局方面来看，现代农业已经具备制造业的理论属性，现代农业部门是垄断竞争、要素自由流动的，符合空间经济学的产业集聚发展模式，即现代农业发展将趋向于空间集聚，从而获得前向关联和后向关联的基础-乘数效应，推动农业呈倍数增长。根据空间经济学的相关理论分析，连片集聚是现代农业发展的必要条件，并且需要相应的条件配套：一是保持足够规模的现代农业集聚区和消费市场，从而形成不断强化现代农业发展优势的循环累积效应。二是借助开放发展现代农业的市场体系，围绕现代农业的发展特征，探索试验和构建促进现代农业要素自由流动的市场环境和组织体制。

4.4 分类预测模型

本文采用三种分类模型：随机森林、CART和线性核支持向量机(l-SVM)分别进行预测。由于选择养老机构居住的老年人占比不到3%，存在着严重的类不均衡现象，为了避免算法对小类的歧视，本文在随机森林和CART算法训练时对小类样本进行了过抽样，而l-SVM算法训练时则采用不同的权重来避免歧视。

从个税税率表和年终奖计算方法，可以得出税率级差造成了差几块钱，甚至一元钱，税率就上了一个档次，因此，年终奖金发放的时候应避免这种情况，建议提前计算好，有效地避开“多发少得”的情况。

为了验证SSOOB特征选择方法的有效性，本文还采用了传统的基于OOB错误率的特征选择方法进行了实验，十折交叉验证的实验结果如表1所示。

表1中Precision*和Recall*分别代表小类的准确率和召回率。从表1中可以看出，使用基于SSOOB算法特征选择后训练出来的模型在综合指标相近的情况下，对小类的分类效果要优于单纯使用基于OOB错误率的随机森林做特征选择。在使用SSOOB算法做特征选择处理后，不同分类器也表现出了不同的性能：l-SVM虽然设置了权重但分类效果依然不理想；CART和随机森林的综合性能表现相近，但CART对于过抽样的训练样本产生了较明显的过拟合现象，所以对小类的分类效果相对较差；而随机森林由于随机选取训练数据和分类特征，即使对于有过抽样的数据也没有产生明显的过拟合现象，分类效果良好。所以，最终选定随机森林算法作为预测模型的分类算法。

4.5 实验结果分析

通过对实验结果的分析，我们可以得出以下结论：

(1)老年人的居住偏好受其自身情况、健康状况、家庭环境和社区环境共同影响。通过单变量特征分析，我们找出了对老年人居住偏好影响最为显著的因素，如图2所示，排名前10的因素依次是：

是否有配偶、家户成员数量、子女个数、是否有集中供暖、户口、子女受教育水平、冬季最低气温、地区类型、是否有合作医疗和开始工作的年龄。而性别、ADL、是否有身体功能障碍、是否有记忆功能障碍对居住偏好的影响不明显。

(2)使用随机森林做特征选择时，在非平衡数据集和多分类情况下SSOOB算法可以更加准确地衡量特征的重要性，有效地改善单纯基于OOB错误率特征选择的结果，提升模型对小类的分类能力。

(3)由于已有的研究工作没有涉及这方面的预测工作，因此本节的实验可以作为基准测试。实验中达到了良好的准确率和召回率，平均F-Measure分数达到了0.79，可以对老年人的居住偏好进行分类预测。

5 结束语

现阶段我国养老问题面临诸多挑战，为了更好地为老年人提供居住安排建议并为养老事业管理部门提供精准化决策支持，本文对将近2万名老年人的数据进行了挖掘分析，探索了影响老年人居住偏好的主要因素。同时，我们也尝试了基于老年人的特征数据来预测老年人居住偏好，并针对类不均衡问题，对随机森林特征选择算法进行了改进，实验结果表明改进后模型的分类效果良好，可以为养老事业精准化决策提供借鉴意义。

由于老年人居住偏好影响因素的复杂性，目前分类模型对少数类的分类仍存在着准确率和召回率偏低的问题。接下来的研究重点将分为三个方面：(1)进一步优化老年人居住偏好影响因素的选取，深入发掘数据中隐含的有用信息；(2)目前SSOOB算法还没有对随机森林中每棵决策树在决策时的贡献信息加以利用，决策时所有决策树使用相同的权重投票，有研究表明通过决策树的贡献信息给决策树赋予不同的权重可以进一步优化特征重要性评估，进而改善特征选择结果；(3)深入优化分类模型，提升分类模型在类不均衡情况下的预测精度。

Table 1 Prediction results of living preference表1 居住偏好预测结果

特征选择方法分类器(Classifier)评价指标准确率(Precision)召回率(Recall)F-值(F-Measure)准确率*(Precision*)召回率*(Recall*)RF0.790.800.790.690.63SSOOBCART0.750.750.750.550.51l-SVM0.640.540.580.180.26RF0.810.800.800.580.56OOB错误率CART0.780.740.760.420.34l-SVM0.630.530.570.050.30

参考文献:

[1] Yang En-yan,Pei Jin-song,Ma Guang-rong.Empirical analysis of factors affecting China’s rural elderly living arrangement[J].Issues in Agricultural Economy,2012(1):37-44.(in Chinese)

[2] Tao Tao, Cong Cong.An analysis of influencing factors on elder’ s preference for patterns of old age support:Some empirical evidence from Beijing Xicheng district[J].Population & Economics,2014(3):15-22.(in Chinese)

[3] Xu Hai-yan,Wang Xin-jun,Zhou Rui,et al.Endowment facilities demand forecasting in Shanghai[J].Urban Problems,2014(10):60-66.(in Chinese)

[4] Lu Jin-fei.China’s aging peak demand for endowment facilities and health care facilities——A case of Shanghai[J].Modern Economic Research,2013(1):45-49.(in Chinese)

[5] Dai Xiang, Mao Yu-guang.Research on software defect prediction based on integrated sampling and ensemble learning[J].Computer Engineering & Science,2015,37(5):930-936.(in Chinese)

[6] Xu Hai-feng. An analysis of influencing factors on Chinese urban elderly living arrangements[J].Economic Research Guid,2013(4):177-178.(in Chinese)

[7] Jiang Zhuo-xuan,Zhang Yan,Li Xiao-ming.Learning behavior analysis and prediction based on MOOC data[J].Journal of Computer Research and Development,2015,52(3):614-628.(in Chinese)

[8] Liang Ya-sheng, Xu Xin, Cheng Xiao-ju,et al.Data mining principles,algorithms and applications[M].Beijing:China Machine Press,2014.(in Chinese)

[9] Ziegler A,König I R.Mining data with random forests:Current options for real-world applications[J].Wiley Interdisciplinary Reviews Data Mining & Knowledge Discovery,2014,4(1):55-63.

[10] Genuer R,Poggi J M,Tuleau-Malot C.Variable selection using random forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.

[11] Yin Hua,Hu Yu-ping.An imbalanced feature selection algorithm based on random forest [J].Acta Scientiarum Naturalium Universitatis Sunyatseni,2014,53(5):59-65.(in Chinese)

[12] Zhao Yao-hui,Hu Yi-song,Smith J P,et al.Cohort profile:The China health and retirement longitudinal study (CHARLS)[J].International Journal of Epidemiology,2012,43(1):61-68.

[13] Nie Ai-xia,Cao Feng,Shao Dong-ke.Research on the influ-encing factors on the elderly endowment living willingness ——Analysis based on the 2011 China social survey data[J].Chinese Public Administration,2015(2):103-108.(in Chinese)

[14] Chen Tie-ming, Ma Ji-xia, Huang S H, et al.Novel and efficient method on feature selection and data classification[J].Journal of Computer Research & Development,2012,49(4):735-745.(in Chinese)

附中文参考文献：

[1] 杨恩艳,裴劲松,马光荣.中国农村老年人居住安排影响因素的实证分析[J].农业经济问题,2012(1):37-44.

[2] 陶涛,丛聪.老年人养老方式选择的影响因素分析——以北京市西城区为例[J].人口与经济,2014(3):15-22.

[3] 许海燕,王新军,周锐,等.上海市区域养老设施需求预测[J].城市问题,2014(10):60-66.

[4] 路锦非.中国老龄化高峰期对养老设施和医疗设施的需求——以上海市为例[J].现代经济探讨,2013(1):45-49.

[5] 戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936.

[6] 许海风.中国城市老年人居住安排的影响因素分析[J].经济研究导刊,2013(4):177-178.

[7] 蒋卓轩,张岩,李晓明.基于MOOC数据的学习行为分析与预测[J].计算机研究与发展,2015,52(3):614-628.

[8] 梁亚声,徐欣,成小菊,等.数据挖掘原理、算法与应用[M].北京:机械工业出版社,2014.

[11] 尹华,胡玉平.基于随机森林的不平衡特征选择算法[J].中山大学学报(自然科学版),2014,53(5):59-65.

[13] 聂爱霞,曹峰,邵东珂.老年人口养老居住意愿影响因素研究——基于2011年中国社会状况调查数据分析[J].中国行政管理,2015(2):103-108.

[14] 陈铁明,马继霞,Huang S H,等.一种新的快速特征选择和数据分类方法[J].计算机研究与发展,2012,49(4):735-745.

作者

吴帅，赵方

出处

《计算机工程与科学》 2018年第05期

上一篇：基于加权网络结构的冷门资源推荐算法*

下一篇：多路径高斯核模糊C均值聚类算法*

《计算机工程与科学》2018年第05期文献

一种云环境下基于混合型BBO的任务调度算法* 作者：童钊，陈洪剑，陈明，梅晶，刘宏

基于无锁原子操作的多线程并行Delaunay三角化算法* 作者：王俊吉，朱朝艳，陈建军，郑澎，徐权

基于TI 6678多核DSP的OpenCV并行优化* 作者：李津，罗昕颉，扈啸，陈跃跃

基于选择性集成的并行多分类器融合方法* 作者：陶晓玲，亢蕊楠，刘丽燕

一种基于FPGA的素域椭圆曲线标量乘结构* 作者：邬贵明，王淼，谢向辉

一种基于遗传算法的BLAS库优化方法* 作者：孙成国，兰静，姜浩

可实现隐私保护的多接收者异构聚合签密方案* 作者：牛淑芬，牛灵，王彩芬，杨喜艳，贾向东

Piazza问答平台与Open edX平台的集成* 作者：张燕妮，陆慧梅，向勇

基于RSS阈值模型的Amorphous算法定位误差抑制* 作者：宋海声，朱长驹，吴佳欣，杨鸿武

基于D-S证据理论的人体跌倒检测方法* 作者：孙子文，李松，孙晓雯

基于Kinect传感器和ORB特征的视觉SLAM算法设计与实现* 作者：许芬，王振

基于稀疏表示与字典学习的彩色图像去噪算法* 作者：杨培，高雷阜，王江，訾玲玲

图像矩阵上的广义最大噪声分离算法* 作者：张大明，张学勇，李璐，刘华勇

基于时空混沌和小波变换的图像加密算法* 作者：王磊，薛伟

《计算机工程与科学》征文通知 2009/03/28

基于多尺度自适应扩散方程的边缘检测方法* 作者：郭伟，董宏亮，石尚

基于计算机视觉及深度学习的无人机手势控制系统* 作者：马乐乐，李照洋，董嘉蓉，侯永宏

一种融合社会化标注系统中主题域相似的个性化排序方法* 作者：黄进，周栋

基于非线性距离和夹角组合的最近特征空间嵌入方法* 作者：杜弘彦，王士同，李滔

一种模糊认知的协同过滤算法* 作者：刘井平，李平

基于SQP局部搜索的多子群果蝇优化算法* 作者：王英博，王艺星

基于加权网络结构的冷门资源推荐算法* 作者：刘国梁，钱晓东

基于随机森林的老年人居住偏好预测研究* 作者：吴帅，赵方

多路径高斯核模糊C均值聚类算法* 作者：文传军，汪庆淼

采用磁传感器的餐厅服务机器人导引控制方法* 作者：朱琳，郭健，吴益飞，李胜，章伟

融合上下文字符信息的泰语神经网络分词方法* 作者：陶广奉，线岩团，王红斌，汪淑娟

基于分类融合和关联规则挖掘的图像语义标注* 作者：秦铭，蔡明

杂志信息网