快捷分类

基于环境气象因素影响的异常就诊量预测

更新时间：2016-07-05

1 引言

环境气象被认为是影响人类健康的因素之一，某些疾病的发生与恶化通常具有明显的周期性气候特征[1,2]。如春季气温回升，细菌滋生，小儿麻疹、风疹、水痘、手足口病等病高发；秋冬季气温下降，肺结核、哮喘、肺炎、流行性感冒等疾病较为严重。另外，空气污染物颗粒，如NOx、NO2、CO、O3、SO2、PM2.5、PM10等，都有可能导致相关疾病发生率升高 [3,4]。

就医人数作为疾病发生率的一种表现，易于统计，分析不同科室就医人数与气候变化的关系，为就医人数建立预测模型和公共卫生部门做出决策提供支持[5]，同时可以为人们选择就医时段提供参考。当前，反映气候状况的气温、空气环境的相应指标数据可以被准确全面地记录和整理。因为涉及隐私，对特定疾病发病情况的收集相对困难，而特定科室的就医人数也可以在一定程度上反映疾病的发生情况。

利用大数据技术从医疗相关数据中发现潜在的关系与模式，帮助医院和公共卫生部门做出决策已经受到关注。例如，2009年，Google公司借助大数据技术从用户的搜索行为中预测了甲型H1N1流感的爆发，比美国疾病控制与预防中心先一步发出预警[6]；一些研究根据用户在Twitter上的文章构建了流感样病例率的预测模型，取得了较准确的结果[7]。这表明大数据可以帮助预测疾病（尤其是流行病）的爆发趋势，然而，这一领域的研究存在以下问题。

（1）数据的隐私保护

不管是用户的搜索行为、社交网络的言论，还是医院或实验室的医疗数据，都涉及用户隐私，如何在保护隐私的前提下对数据进行分析与挖掘是一大挑战。

（2）数据的规模

栗战书委员长在讲话中着重指出：“要加强生态环境、社会主义核心价值观、社会民生等重点领域地方立法，努力从法治上增强人民群众的获得感、幸福感、安全感。”可以说，这一“着重指出”，即是在提示我们从事地方立法工作的同志，只有通过深入学习贯彻习近平总书记关于以人民为中心的立法理念，始终坚持把惠民作为其价值取向，做到地方立法工作紧紧围绕同级党委决策部署的重点、经济社会发展的难点、人民群众关心的热点展开，才能最大限度地凝聚社会共识，让最广大的人民群众享受到最充分的地方立法之红利。

数据是大数据分析技术的基础，在需要用户授权的情况下，目前往往只能收集到少量的用户行为数据，无法得到具有普遍性的结论。

（3）就诊量的波动性

将气温因素和污染物因素及医院传染科平均就医人数作为模型的特征，建立就医人数与环境特征间的随机森林分类器，实现对就医突变情况预测。具体如下。

特定科室的就医人数聚合了多种疾病的发病率信息，就医人数与气候指标间未必存在直接相关性，如何给出合理的预测预警是需要考虑的问题。

本研究以草莓为原料，采用蔗糖、果糖、葡萄糖以及蔗糖结合超声渗透预处理方式，再进行真空冷冻联合热风干燥处理，通过对草莓的色泽、硬度、水分含量、花色苷、多酚、黄酮、对DPPH和-OH清除率、铁离子还原能力等指标进行测定，寻找出合适的干燥工艺，旨在为该技术在草莓干燥加工上的应用和产业化发展提供支持。

2 基于环境气象因素的就诊量预测模型

环境气象因素与一些特定疾病的发生息息相关，尤其是流行病和小儿疾病。当前，反映气候状况的气温、空气环境的相应指标数据可以被准确全面地记录和整理。因此，通过环境气象因素来对就诊量进行预测，是一个合理的选择。本文用到的环境因素包括两类：气温和大气污染物。气温因素包括3个指标：最高气温、最低气温和平均气温；大气污染指标包括PM2.5、SO2、NO2、CO。

由于环境因素并不是就诊量变化的唯一因素，因此直接对就诊量的数值进行预测是不合适的。本文试图对就医人数的异常情况建模，即预测就诊量的环比变化情况。比如，预测当天的就医人数相对前几天是平稳的还是突变的。因此，预测模型是一个分类模型。笔者选择随机森林[8]作为分类器。

fk(p,q)=pk+pk-1q+pk-2q2+…+qk(k=0,1,2,…)，并约定f0(p,q)=1，则

选择温度、PM2.5、SO2、NO2、CO指标和平均就医人数作为模型的特征，并假定各特征之间相互独立。变量Tt=＜Tmin,t,Tmax,t, Tmean,t＞表示日期t当天的最高气温、最低气温和平均气温。考虑就医人数与温度的时滞效应，选择预测日期前N天（不含当日）的温度变化作为特征，分别计算N天平均温度天内最大温差Dev(TN)，其中：

对PM2.5、SO2、NO2、CO指标做同样的处理，形成污染物的特征，表示N天内PM2.5的平均值。表示经过标准化后的前N天的平均就医人数（不含当日）。因此模型的特征集表示为：

对就医人数的异常情况建模，异常情况是指环比变化情况。模型的目标变量应该反映预测当天的就医人数的突变情况，假定阈值当G＞α时，判定就医人数突增，当G＜β时，判定就医人数突减，即当标准化后的就医人数偏离超过均值的α或β倍标准差时判定为就医人数突增或突减，见表1。

表1 判定就医异常情况

pagenumber_ebook=59,pagenumber_book=56 突增 G≥α 1突减 G＜β -1平稳 β≤G＜α 0

其中，将L(Y)作为标签，特征集F中，的取值为连续变量，L为类别标签。

● 气温数据为国家气象信息中心提供的2013年1月1日—2014年11月30日该市气象站每日常规连续监测数据，包括最高气温、最低气温和平均气温。

3 实验分析

（1）数据集

4.2.3 阿派沙班。阿派沙班是一种选择性地抑制Xa因子，能减少凝血酶的生成，半衰期8～14 h，每天给药1次或2次，1/4经肾脏排泄，3/4通过肝脏代谢。有研究显示阿派沙班的应用能减少脑卒中、全身性栓塞、心肌梗死或血管性死亡的发生，未有肾毒性或其他严重不良事件，且阿派沙班能更有效地预防缺血性卒中与全身血栓栓塞事件的发生[20]。

图1为该市PM2.5浓度的日平均值，为每日连续监测数据，可见浓度在冬季（2013年12月—2014年2月）达到当年最高值，春季次之，夏季（2014年9月—2014年10月）最低。污染物取值大于零，对污染物水平取对数发现，其对数取值满足正态分布。图2、图3、图4是该市大气污染因子SO2、NO2、CO的连续分布图，类似的，污染物在冬季（2013年12月—2014年2月）达到当年最高值，春季次之，夏季（2014年9月—2014年10月）最低。

爪极永磁式交流测速电机的永磁转子轴向充磁，磁极的极性用N和S表示；导磁爪有6个：上爪极(白色)A、C、E和下爪极(黑色)B、D、F。永磁转子N极、导磁爪A、导磁爪D、永磁转子S极构成磁回路，如图2(a)所示，磁场方向垂直于纸面；生成的感应电动势按照正弦规律变化，如图2(b)所示。

上述3个数据集描述性统计结果见表2。

不同于现有的研究，本文利用反映气候状况的气温、空气环境的相应指标数据对就诊量进行预测，数据准确且规模大；通过对特定科室的就医人数进行预测，间接预测了特定类型疾病的发生发展情况，避免了对涉及隐私的病人发病情况的收集；并且侧重于预测就医人数的突发，建立就医人数突发的预警模型。

● 大气污染物监测数据来源于国家气象中心，包括该市2013年1月1日—2014年11月30日的大气SO2、NO2、CO、PM2.5污染物浓度。

本文在训练样本集上构造了10棵决策树组合的随机森林分类器。

● 就医数据是2013年1月1日—2014年11月30日该市某儿童医院传染科科室就医人数每日变化数据。

模型涉及多源数据集，包括大气污染物监测数据、气温数据和就医人数的数据，下面以某市为例进行说明。

（2）环境气象与就诊人数趋势相关性分析

Buckling Impact Analysis of Cylinderial Shells with Opening and Reinforcement Under Axial Compression HU Fuquan,LI Pengfei,HE Zheng(60)

表2 描述性统计结果

注：大气PM2.5平均浓度为76.2 μg/m3，超过国家空气质量二级标准（35～75 μg/m3），属轻度污染。

名称平均标准误差中位数众数标准差方差峰度偏度最小值最大值最高温度/℃ 21.7 0.3 23.0 26.0 9.0 80.2 -0.8 -0.1 2.0 40.0最低温度/℃ 15.2 0.3 16.0 23.0 8.7 75.7 -1.1 -0.2 -2.0 31.0平均温度/℃ 18.5 0.3 19.5 24.0 8.7 76.4 -1.0 -0.2 0.0 35.5就诊人数/人 145.8 2.9 130.0 70.0 76.5 5853.0 -0.1 0.8 11.0 412.0 PM2.5/ 76.2 1.9 62.0 30.0 51.2 2619.4 6.9 2.1 12.0 465.0 SO2/(μg·m-3) 19.54 0.479 15.0 13.0 12.68 160.7 3.56 1.92 6.0 77.0 NO2/(μg·m-3) 56.57 0.889 52 47 23.49 551.83 -0.01 0.71 10 128 CO/(μg·m-3) 20.39 0.3 18 16 7.94 63.1 6.42 2.04 10 76

如图5所示，该市日气温变化具有明显的时间规律性，高峰值出现在夏季的8月，低峰值出现在冬季的1月。

传染科就诊人数变化趋势如图6所示，具有明显的周期性，其高峰值出现在初夏（6月—7月），8月—9月为次低谷，低峰值出现在深冬（1月—2月）。初夏之际，气温骤升，适合细菌繁殖，因此传染科的就诊量最高。而在1月—2月，气温是一年中最低的，不利于细菌的繁殖，就诊量也就相对较低。

（3）实验结果

经济犯罪是刑法与经济法之间衔接的基础。经济违法行为和经济犯罪只有度的区别;由于超过了一定的度，行为才发生了质变，并因此受到不同法律的调整。因此，对于这种“度”的把握即经济违法行为与经济犯罪之间界限的把握是非常重要的，其也是保障刑法与经济法之间衔接紧密、协调统一的关键所在。

实验以该市2013年1月1日—2014年11月30日气温数据，PM2.5、SO2、NO2、CO大气污染浓度和该市儿童医院传染科日就诊人数为基础，构造上述特征和标签，对就医人数进行了前文所述的标准化处理，并且根据标准化后的就医人数最多及最少的20%界定。实验采用随机森林作为分类器，以十折交叉验证的方式分别计算分类器在突增、突减以及正常情况下的预测准确率。为评估就诊人数随环境变化的时滞效应，研究延迟天数N从1到7变化时，各情况下的准确率和召回率，具体情况见表3。

图1 2013年1月1日—2014年11月30日某市PM2.5浓度随时间变化的趋势

图2 2013年1月1日—2014年11月30日某市SO2浓度随时间变化的趋势

实验结果表明，在N较小（N=1或N=2）时，分类的准确率都不高，表明环境的变化无法在短时间内立刻影响到就医人数。随着N的增大，分类效果逐渐提升，并在延迟4日时效果最好，此后随时间的增加，分类效果递减。这表明环境因素对传染科就诊人数的影响时滞在4日左右，延迟如果过大，则环境因素的影响变弱。实验结果表明分类模型可取N=4来获取最好的分类效果。

表3 随机森林分类器预测准确率及召回率随延迟变化

N值突增情况突减情况正常情况准确率召回率准确率召回率准确率召回率N=1 0.858 0.785 0.828 0.898 0.722 0.690 N=2 0.866 0.825 0.840 0.897 0.746 0.712 N=3 0.891 0.848 0.846 0.893 0.762 0.742 N=4 0.928 0.835 0.874 0.924 0.805 0.781 N=5 0.908 0.815 0.855 0.910 0.778 0.762 N=6 0.913 0.825 0.860 0.885 0.743 0.762 N=7 0.907 0.839 0.841 0.897 0.768 0.740

图3 2013年1月1日—2014年11月30日某市NO2浓度随时间变化的趋势

图4 2013年1月1日—2014年11月30日某市CO浓度随时间变化的趋势

图5 2013年1月1日—2014年11月30日某市气温随时间变化的趋势

在延迟设定为4日（N=4）时，就医人数突增预测的准确率为92.8%，召回率为83.5%；就医人数突减预测的准确率为87.4%，召回率为92.4%；就医人数没有明确波动的情况预测准确率为80.5%，召回率为78.1%。总体上看，分类器对正常情况的预测表现一般，这是因为就医人数受多种因素影响，其他变量的变化也会导致就医人数发生异常变化，使得结果不属于正常情况。可以将其他因素加入分类器中，提高对正常情况的预测效果。分类器对突增和突减情况的预测要明显好于对正常情况的预测，具有较高的准确率和召回率，说明从环境因素预测就诊量的异常波动是有效的。

随机森林的分类结果通过K个决策树结果的投票来决定，提升了单个决策树的分类精度，防止了过拟合的出现，是一种比较可靠的分类方法。为了评估随机森林分类效果，本文挑选了6种常用的分类算法（高斯朴素贝叶斯、SVM、K近邻、决策树、XGBoost、逻辑回归）进行分类试验，并与随机森林分算法进行对比。结果见表4。

新辅助放化疗具体方案为：术前行三维适形放射治疗，范围包括肿瘤部位及可能转移或已转移的淋巴结区域，放疗剂量2 Gy/次，每周5次，总共46 Gy。同时给予化疗，本研究中患者选择的化疗方案为MAYO方案，具体：第1～5天，每天给予患者亚叶酸钙(CF)200 mg/m2、5-氟嘧啶(5-Fu)425 mg/m2，每4周重复1次，为1个疗程，整个治疗过程共6个疗程。对于放化疗过程中出现的不良反应均积极对症处理。治疗结束后4周，重新评估患者的临床分期，并制定手术计划。

根据灰色聚类定义，可知其目的是根据对象i（i=1，2，3…，n）关于指标 j（j=1，2，3…，m）的观测值xij（i=1，2，3…，n；j=1，2，3…，m）将对象 i归入灰类 k（k∈｛1，2，3…，s｝）。由此可知，模型的基本参数为聚类对象i、聚类指标m、灰类k。

实验表明各种分类算法在不同情况下各有优劣。高斯朴素贝叶斯方法在突增召回率上表现不错，但是准确率过低，且对正常情况的预测效果很差，说明过多地将正常情况判定为了异常情况；SVM和XGBoost在突增上的表现和随机森林接近，但在突减上表现略差。K近邻在各项指标上的表现都较差。决策树的召回率比较好，但准确率低。逻辑回归算法在正常情况下的召回率太低。总体来说，随机森林的表现要优于其他算法。

表4 各种分类算法进行分类试验的结果

算法突增预测准确率突增预测召回率突减预测准确率突减预测召回率正常情况预测准确率正常情况预测召回率随机森林 0.928 0.835 0.874 0.924 0.805 0.781高斯朴素贝叶斯 0.723 0.894 0.835 0.896 0.756 0.546 SVM 0.941 0.873 0.856 0.909 0.810 0.773 K近邻 0.898 0.846 0.858 0.858 0.741 0.756决策树 0.858 0.852 0.849 0.819 0.707 0.736 XGBoost 0.925 0.882 0.849 0.895 0.794 0.749逻辑回归 0.828 0.901 0.857 0.914 0.813 0.677

4 结束语

本文研究分析了分类模型在某儿童医院传染科就诊人数突变的应用。抽取待预测日期前一段时间内气温、污染物浓度以及就医人数整体水平作为分类模型的特征，利用随机森林模型预测就医人数的异常情况，具有较高的准确率和召回率。对就医人数的预测可以辅助医院合理安排医疗人员，亦可为公众合理安排就医时间提供帮助。由于科室就医人数聚合了不同疾病患者的就医信息，而不同疾病与外界环境的关系不尽相同，科室就医人数与环境因素间的相关性在一定程度上被弱化了。为判明特定疾病与环境因素间的关系需要收集更精准的数据，这是未来要完成的工作。

参考文献：

[1]KOUTRAS A, SAKELLAKIS M,MAKATSORIS T, et al. Seasonal variability in the incidence of carcinomatous meningitis[J]. Journal of Neurosurgery,2015, 122(3): 543-546.

图6 2013年1月1日—2014年11月30日某市儿童医院传染科就诊人数变化趋势

[2]HONG J S, KANG H C. Seasonal variation in case fatality rate in Korean patients with acute myocardial infarction using the 1997-2006 Korean National Health Insurance Claims Database[J]. Acta Cardiologica, 2014, 69(5): 513-521.

[3]LEE S L, WONG W H S, LAU Y L.Association between air pollution and asthma admission among children in Hong Kong[J]. Clinical & Experimental Allergy,2006, 36(9): 1138-1146.

[4]LE T G, NGO L, MEHTA S, et al. Effects of short-term exposure to air pollution on hospital admissions of young children for acute lower respiratory infections in Ho Chi Minh City, Vietnam[J]. Research Report(Health Effects Institute), 2012, 12(4):174-181.

[5]SOYIRI I N, REIDPATH D D, SARRAN C.Forecasting asthma-related hospital admissions in London using negative binomial models[J]. Chronic Respiratory Disease, 2013, 10(2): 85-94.

[6]DAVIDSON M W, HAIM D A, RADIN J M. Using networks to combine “big data” and traditional surveillance to improve influenza predictions[J]. Scientific Reports, 2015(5): 8154.

[7]LAMPOS V, BIE T D, CRISTIANINI N.Flu detector: tracking epidemics on twitter[C]// European Conference on Machine Learning and Knowledge Discovery in Databases, September 20-24,2010, Barcelona, Spain. Heidelberg:Springer Press, 2010: 599-602.

[8]BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.

作者

于广军，熊贇，彭思佳，阮璐

基金

分类号

出处

《大数据》 2018年第03期

上一篇：多中心临床大数据平台建设及深度应用

下一篇：面向大数据应用的混合内存架构特征分析

《大数据》2018年第03期文献

宏基因组大数据分析的质量控制流程规范作者：郑广勇，杨桢，曹瑞芳，刘婉，李亦学，张国庆

区域卫生数据用于临床疗效分析的可用性研究作者：叶琪，赵亮，阮彤，冯东雷，高炬，刘珉

生物效应大数据评估聚类算法的并行优化作者：彭绍亮，杨顺云，孙哲，程敏霞，崔英博，王晓伟，李非，伯晓晨，廖湘科

基于ICD-10诊断编码的慢性病并发症聚类算法作者：王晓霞，蒋伏松，王宇，熊贇

多中心临床大数据平台建设及深度应用作者：朱立峰，刘淑君，陈德华，乐嘉锦

基于环境气象因素影响的异常就诊量预测作者：于广军，熊贇，彭思佳，阮璐

面向大数据应用的混合内存架构特征分析作者：李鑫，陈璇，黄志球

基于Gephi的航运招聘信息可视化分析作者：王扬，田野，李铁山，陈俊龙，彭东成，周义华

专栏：大数据领域国家工程实验室 2016/07/05

大数据驱动的安全协同生态建设作者：鲍旭华，曲晓东，郑新华

大数据协同安全技术国家工程实验室简介 2016/07/05

混合异构营销数据平台实践作者：卢亿雷

人工智能赋能金融科技作者：王健宗，黄章成，肖京

杂志信息网

基于环境气象因素影响的异常就诊量预测

1 引言

2 基于环境气象因素的就诊量预测模型

3 实验分析

4 结束语