快捷分类

ZOIP混合回归模型的参数估计

更新时间：2016-07-05

计数数据广泛存在于保险、金融和生物医学等多个研究领域中，针对这类数据通常会用泊松回归或二项回归等比较经典的回归模型，但是在实际问题中，观测数据可能存在大量的0或1，这时我们就需要考虑零一膨胀回归模型。自从Lambert 提出了零点膨胀泊松回归模型[1]以来，关于具有零膨胀的计数数据已经有了很多研究，Melkersson等[2]在对看牙医次数的数据进行研究时首次提出了零一膨胀泊松分布，Fahrmeir等[3]研究了一类零膨胀的可加模型，杨亮等[4]、张晓琳等[5]研究了零膨胀回归的贝叶斯方法，王平鲜等[6]研究了零膨胀模型的检验问题，陈异等[7]、孟生旺等[8]对零膨胀模型的实际应用做了研究。

第四，动物园并未配备麻醉枪，但是麻醉枪在本案中是否起到关键作用？就算有麻醉枪，是否能对老虎起效？在本案中，因为麻醉枪对于老虎并不能起到显著的作用，所以在本案中无法起到关键作用。但是基于本案中参考对象是老虎，麻醉枪对于其作用不大，是特殊个体，所以应该仍列入参考范围之内。

在现实生活中，数据可能不是来自于单一总体，如果仍然用同一个模型对数据进行处理，就会造成数据散度偏大。混合回归模型是指多个混合成分按照一定的比例进行混合而组成的回归模型。它可以对总体的“非同质性”进行刻画和描述，自Karl Pearson首次将混合模型用于统计建模后，各类混合模型在基因研究、金融和工程学等众多研究领域迅猛发展。陈家骅等[9]研究了有限混合Von Mises模型的极大似然估计，谢远涛等[10]考虑了Gamma分布簇广义线性混合模型的参数估计问题，王旭等[11]基于高斯混合模型对结核菌图像进行检测，陈远帆等[12]用高斯混合模型对轴承故障进行了诊断。虽然目前对于混合回归模型已经有了很多研究，但仍有较大的探索空间，特别是零一膨胀的混合模型还未涉及。

对照组：患者采用口外弓支抗正畸治疗，佩戴Nance弓(杭州慈北医疗器械)矫正。告知患者Nance弓佩戴方法，每天需佩戴8 h以上；定期复诊(1次/月)，对Nance弓适当加力。同时对患者进行口腔卫生宣教。

(3) 在数值模拟静力计算中，对于收敛解而言，滑坡孔隙水压力场与应力场是同步进行的。而实际水库型滑坡演化过程中渗流场与应力场的耦合作用具有时间效应，实测位移波动相比库水位波动、降雨等具有一定的滞后性。这些将导致数值计算位移与实测位移难以同步变化。

以下对零一膨胀泊松回归模型建立了参数的极大似然估计，针对标准的EM算法只能使估计收敛到局部极大值这个缺陷，提出了MCEM算法对传统的EM算法进行修正，使得模型能够找到全局最优解。最后通过模拟研究说明该方法的有效性。

1 零一膨胀泊松回归模型(ZOIP)

零一膨胀回归模型是处理计数数据中0和1都过多的计数模型，假设数据中过多的0和1所占总体数据的比例分别为φ0和φ1，其他数据取值服从某种离散分布，也就是说它们各按一定比例进行混合，具体形式为

(1)

[3] Fahrmeir L，Echavarria L O.Structured Additive Regression for over Dispersed and Zero-inflated Count Data[J].Applied Stochastic Models in Business and Industry，2006，22(4)：351-369.

从式(1)可以看出数据中的0来自2部分，第1部分的0和第3部分离散分布中的0、数据中的0也是同样的道理。特别的,当φ1=0，φ2=0时，数据完全来自某种离散分布；当φ1≠0，φ2=0时，数据只在1处发生了膨胀；当φ1=0，φ2≠0时，数据只在0处发生了膨胀，式(1)就简化为零膨胀模型。

若φ1≠0，φ2≠0，并且式(1)中的某种离散分布为泊松分布时，模型便为零一膨胀泊松分布，具体形式为

(2)

[4] 杨亮，孟生旺.零膨胀损失次数的贝叶斯分位回归模型[J].数量经济技术经济研究，2017，34(5)：149-160.

前文所引彭绍升《儒行述》中的徐枋小传，在其篇末是这样表明史源的：“《居易堂集》《苏州府志》。”是则，传主的自我人生选择，特别是诗文集中的自我抒怀和陈情，对身后为其写作传记、行状者，还是起着至关重要的作用的。对此，徐枋本人是深信不疑的，这在其自编《居易堂集》的时候，就表现得尤为突出，在《自序》中，他这样说道：

(3)

其中：β、γ0和γ1为回归系数向量。

2 ZOIP混合回归模型

混合回归模型是将响应变量服从混合分布的情形模型化，从而对总体的“非同质性”进行描述。也就是说，混合回归模型是指多个混合成分按照一定的比例进行混合而组成的回归模型。在实际中，混合成分的个数大多是有限的，我们把这类模型称之为有限混合回归模型，具体形式为

(4)

其中：yi(i=1，2，…，n)为混合总体的样本；p为混合成分的个数；πj(0<πj<1)为数据来自混合成分j的先验概率。fj表示第j个混合成分的密度函数。

若每个混合成分是零一膨胀回归模型，则得到零一膨胀有限混合回归模型。重点研究具有2个混合成分的ZOIP混合回归模型：

0<π<1

(5)

其中：中k=1，2由式(2)给出。

3 ZOIP有限混合回归模型的极大似然估计

设Y0=(yi，Xi，Zi)为观测数据，于是模型(5)基于观测数据的对数似然函数为

(6)

其中：f(yi|θk)由式(2)和式(3)给出。

通过式(6)可知，对于混合系数π的相应估计方程为

(7)

在实际计算中式(7)是很难求解的，即使得到混合系数π的相应估值，也可能超出π要求的范围。受数据添加思想的启示[3]，我们首先引入指示变量wi，若yi来自第1个混合成分，记wi=1，否则wi=0。这样就可以给出完全数据集Ycom=(Y0，wi)，其中Y0=(yi，Xi，Zi)为观测数据。

基于完全数据的对数似然函数为

π+(1-wi)log(1-π)]+[wilog f(yi|θ1)+(1-wi)log f(yi|θ2)]}。

(8)

由式(8)可以看出,基于完全数据的对数似然函数关于添加的潜在变量是线性的，虽然项数有所增加，但是计算却相对容易。其所对应的Q函数为

其中：表示在第t步迭代中参数θ估计的当前值表示该期望的计算是在条件分布下得到的。

4 改进的MCEM算法

由于传统的EM算法[13-14]只能使得估计收敛到局部极大值，MCEM算法虽然克服了传统的EM算法使得估计收敛到局部最优解上的缺陷[15]，但是其收敛速度却大大降低。为了提高MCEM算法的速度，以概率统计理论的数值计算方法为指导，通过实验的方法来估算随机变量的期望，进而对MCEM算法进行改进，具体算法包括如下3步骤：

第1步：给定模型参数不同的初值，用EM算法求出几个局部最优值。用其中拟合效果较好的作为下面算法的初始值。

第2步：(1)从条件分布f(wi|θ(t)，Y0)中随机抽取m个样本,其中θ(t)表示第t次迭代后θ的估计值；f(wi|θ(t)，Y0)表示在给定当前θ和观测值Y0下，潜在数据wi的条件预测分布。

m越大当然精度越好，但是m过大又会导致计算速度变慢，所以选择合适的m非常重要。为了避免速度过慢，先选择较小的m，然后再依次增加m，进而提高精度。

(2)计算

(9)

得到的就是的Monte Carlo估计，并且只要m足够大，就可以认为和基本相等。

(1) 单边供电模式下2列AW3车同时起动电流峰值(4 400 A)未达到电流速断保护的整定值(9 000 A)；

第3步：将极大化，采用了Newton-Raphson迭代法求出令

至此就对模型参数完成了1次迭代，重复上述过程直到收敛求出全局最优解。

党的十九大报告指出：我国经济已由高速增长阶段转向高质量发展阶段，正处在转变发展方式、优化经济结构、转换增长动力的攻关期。必须坚持质量第一、效益优先，以供给侧结构性改革为主线，推动经济发展质量变革、效率变革、动力变革。报告为集团公司炼化、销售业务的改革发展指明了道路，理清了方向，为化解产销矛盾提供了理论依据。

实际上，在改进的MCEM算法中，首先应该考虑的是确定m，m越大精度越好，但是m过大又会导致计算速度变慢，所以选择合适的m非常重要。另一方面，MCEM算法和EM算法的收敛方式不同，θ(t)最终会在真实值的附近小幅度跳跃，直到或充分小，就认为估计序列收敛了。

5 模拟研究

为了说明该方法的有效性，以下将用一个模拟研究来对比EM算法和MCEM算法。考虑具有2个混合成分的ZOIP混合回归模型(5)，其中每个ZOIP回归模型为

首先模型中两成分的混合比例π=0.6，真值分别为

[7] 陈异，戴琳，寇鹏.零膨胀泊松回归模型及其在交通事故中的应用[J].计算机技术与发展，2013，23(10)：163-166.

表1 2种算法下的参数的极大似然估计

Table 1 Maximum likelihood estimation of parametersunder two algorithms

paraEMMCEMparaEMMCEMβ100．54670．5431β200．50890．5034β110．23850．2316β210．36970．3566γ1，000．60370．6047γ2，000．49670．4967γ1，010．18570．1987γ2，010．43670．4389γ1，100．25430．2587γ2，100．25780．2579γ1，110．13420．1340γ2，110．40560．4037

表2 2种算法下的迭代速度

Table 2 Iteration speed under two algorithms

算法迭代次数EM34MCEM20

从表1计算结果中容易看出,MCEM算法在E步中由于使用Monte Carlo模拟所牺牲的精度，在M步中被补偿了回来，这表明MCEM算法在计算的可行性方面表现良好。另一方面，MCEM算法由于M步采用了Newton-Raphson迭代法。从表2可以看出，MCEM算法的收敛速度也优于EM算法的收敛速度。通过模拟得出，MCEM算法无论在计算的可行性方面还是在收敛速度方面，都有着良好的表现。

6 结论

首先提出了计数数据中0和1偏多且具有“非同质性”的ZOIP混合回归模型，其次对具有有限混合成分的ZOIP模型建立了参数的极大似然估计。为了克服EM算法缺陷，引入MCEM算法并对其进行修正。最后通过模拟研究说明了该方法的有效性。但是在建模过程中，并未对混合比例考虑回归，这将是零一膨胀泊松混合回归模型后续的研究重点。

对零一膨胀模型的参数部分引入协变量向量X和Z，这样便得到了零一膨胀泊松回归模型(ZOIP)的具体形式：

参考文献：

3.2 普通高校的师资力量有待提高，专业的定向运动制图人才需要大量培养，以满足学生对定向运动的专业人才需求。

⑮［美］詹姆斯·奥康纳:《自然的理由——生态学马克思主义研究》，唐正东、臧佩洪译，南京大学出版社2003年版，第11页。

[1] Lambert D.Zero-inflated Poisson Regression with an Application to Defects in Manufacturing[J].Technometrics，1992，34(1)：1-14.

[2] Melkersson M,Olsson C.Is Visiting the Dentist a Good Habit? Analyzing Count Data with Excess Zeros and Excess Ones[D].Sweden：Umer University，1999.

其中：f(y)表示其来自某种离散分布，如泊松分布、二项分布等，φ2=1-φ0-φ1。

[6] 王平鲜，黄介武，常国艳.基于ZIP模型的零膨胀检验方法的比较研究[J].经济数学，2017，34(1)：6-10.

其中：φ2=1-φ0-φ1，0来自非泊松分布中的0和泊松分布中的0；1也是同样的道理。

[5] 张晓琳，付英姿，褚培肖.基于偏斜正态分布的零膨胀负二项层次回归模型的贝叶斯分析[J].统计与决策，2016，32(2)：8-12.

2）组织方要对志愿者进行统一培训，要求其了解景点、景区的景观、人文、环境、特点的同时，还要对其文化品牌有所认知；在熟记景点、景区游览词的同时，还要对突发状况有所认知；在了解历史突发事件发生与解决方案的同时，还要对应急处理方法与机制所有认知，使得旅游类志愿者综合判断力与能力总体提高。

对于第1个混合成分，接下来从标准正态分布中产生100个随机数，协变量x的值由这些随机数产生，接着从零一膨胀回归模型中产生100个随机数yi。然后对于第2个混合成分采用同样的方式产生随机数。由于EM算法的估计值会受到初始值的影响，所以给定3组不同的初始值并选择效果较好的1组作为代表。对于改进的MCEM算法，采用与EM算法相同的初值，令m=80，然后2种算法都以为收敛标准，求出模型参数的极大似然估计，迭代结果见表1，迭代速度见表2。

因循慎终追远式的反思，人类与外部世界及其自身关系的体认，已经掀开了人和自然矛盾冲突的面纱，触及如何审察人类生存危机的基本命题。伴随着“中心—边缘”物质关系交换谜题的交错起落，理论界面临着如何诠释人和自然、人和人、人和社会整体关系的全新论题。纵观思想风暴的中心区域，剥离人类中心主义“思想王权”的呼声跌宕起伏，添置自然中心主义“精神桂冠”的吁求不绝于耳。

[8] 孟生旺，杨亮.随机效应零膨胀索赔次数回归模型[J].统计研究，2015，32(11)：97-102.

[9] 陈家骅，李鹏飞，谭鲜明.混合Von Mises 模型的参数估计[J].系统科学与数学，2007，27(1)：59-67.

[10] 谢远涛，杨娟，徐梅笛.广义Gamma分布簇广义线性混合模型的参数估计[J].统计与决策，2013，29(5)：14-17.

[11] 王旭，鞠颖.基于高斯混合模型的结核菌图像检测[J].电脑知识与技术，2014，10(10)：2363-2366，2377.

[12] 陈远帆，李舜酩.基于高斯混合模型与改进网格搜索法的轴承故障诊断[J].重庆理工大学学报：自然科学版，2016，30(3)：34-39.

在OSCE执行过程中，考站的分类不同，分类范围在3～14个不等，主要包括笔试、案例分析、技能操作、护理文书书写等过程，考查学生能力范围较广。应用型护理本科生在学校内主要学习时间在教室和实验室内，基本的理论知识和扎实的技能操作是学生必备的知识储备，要想在临床上发挥真实的临床实力，仅仅单一的理论基础和技能操作是不够的，要将两者有效结合，加之案例导入，增加见习机会，还要求学校在教学方法中保持灵活多变的特点，应用OSCE考核方式，学生的知识掌握更加灵活牢固，且能摆脱刻板的知识单一灌输型教学方法，提高学生学习的积极主动性。

[13] 李顺静.基于不完全数据的最大似然估计方法：EM算法[J].重庆工商大学学报：自然科学版，2014，31(5)：29-33.

一些我们今天称之为“目击者”的证人，当时也会遭到狱吏的拘押。狱吏从便利自己工作的角度出发，担心那些在邸店或路途中的干证人，因其非本辖区之人，不易追回官府，所以不让他们依法办理保识出狱，直到结案后犯人没有“翻异”即翻供，干证人等才可释放。有时干连人被视为有罪的“重囚”，在追证中干证人死亡的不在少数。如在广东惠州的一个案件中，追逮超过二十九名干连人，有些人就瘐死狱中，其他人在案情真相大白后才最终获释。而县衙为了获得“实情”，对干证人进行诘问、“榜笞”，令人触目惊心。

[14] 王幼琴，赵忠盖，刘飞.缺失数据下基于EM算法的非线性过程建模[J].化工学报，2016，67(3)：931-939.

[15] 卢玉桂，韦新星，赵丽棉.多层线性模参数估计的MCEM算法[J].数学的实践与认识.2016，46(11)：225-230.

为打造“食安威海”城市品牌，威海市在全国首创“食安、农安、公安”三大系统资源共享、行刑衔接、联勤联动的“三安联动”工作机制，实现了从农田到餐桌的全程监管。

作者

吕敏红，张惠玲，吴成晶

出处

《甘肃科学学报》 2018年第02期

上一篇：分数阶热弹理论下温度依赖材料特性问题研究

下一篇：线性回归与灰色理论在用电量预测中的应用

《甘肃科学学报》2018年第02期文献

分数阶热弹理论下温度依赖材料特性问题研究作者：马永斌，李琪

ZOIP混合回归模型的参数估计作者：吕敏红，张惠玲，吴成晶

线性回归与灰色理论在用电量预测中的应用作者：任芳玲，李文波，贺甜

基于改进优先经验重放算法的游戏控制研究作者：赵文仓，吴建辉

力偶作用下形状记忆合金梁的非线性弯曲理论分析作者：王吉昌，沈永春，杨静宁

基于支持向量机的浊积扇沉积微相自动识别作者：国景星，陈铭

具有Logistic死亡率的连续和脉冲接种的SIRVS传染病模型作者：姚小娟，吕陇

基于贪心算法的城市生活垃圾收运路线优化作者：肖帆

数码比色法测定二氧化硫浓度的多元非线性回归模型作者：刘楠，刘迪

蔬菜大棚土壤过氧化氢酶活性及与养分关系研究作者：王建，卢超超，芦珊珊，高涵，祁迎春

Tei指数对甲亢性心脏病患者右室功能的评估作者：胡小玲，刘姝妮，谭开彬，李书兵

甲状腺癌术后碘131治疗对唾液腺功能及生命质量的影响效果分析作者：张凤萍，张美春

肿瘤坏死因子-α与强直性脊柱炎中医辨证分型相关性的研究作者：李兴锐，葛显应，谭悦，刘童，陆继娣

碘131与甲硫咪唑联用对甲亢患者疗效及唾液腺功能的影响分析作者：宗晓芳，李爽

宁波轨道交通1号线全封闭声屏障降噪性能试验研究作者：唐吉意，林平

楞古水电站夏日边坡边界条件确定及稳定性评价作者：范博远，孙少锐，李振江，张楚楚，王武超

主管加内套管的加强K型搭接节点滞回性能研究作者：高栋，杨文伟，索雅琪，林健康

深厚土层散体材料桩桩体竖向承载力计算作者：施瑞，王旭，刘德仁，蒋代军

城步地区土坡坡度与滑坡发育概率关系研究作者：赵芳芳，陈新跃，杨浩

巨厚软土地区深基坑应力与变形研究作者：张跃，颜庭成

回流孔面积大小对自吸泵性能影响的研究作者：马希金，张亚琼，崔生磊，张潮，蔺尚杰

离心泵不同叶轮与隔舌径向间隙对泵压力脉动特性影响的研究作者：杨从新，杨焘，王玲

基于光电传感器智能循迹万向车台的设计作者：汤子龙，丁志强，丁永强

深海阀门湿模态振动特性的研究作者：张希恒，李宏刚

基于电流过零区域检测的H桥逆变器死区补偿作者：李巍，张津京

陕西省商洛市旅游资源分析与评价作者：李晓刚，陈云凤，李婵

M：MgAl2O4(M=Mn,Cr) 的发光性质及能量传递作者：夏心俊，阎峰云，孙文峰，魏富中，马文丽

企业碳排放权交易决策模型研究作者：宋杰鲲，梁璐璐，牛丹平

多维美式勒式期权有限差分定价模型研究作者：杜军，韩子惠，李佳欣

供给侧结构性改革下的天津制造业资源配置效率研究——基于DEA模型作者：齐二石，范世豪，刘亮

杂志信息网