更全的杂志信息网

ZOIP混合回归模型的参数估计

更新时间:2016-07-05

计数数据广泛存在于保险、金融和生物医学等多个研究领域中,针对这类数据通常会用泊松回归或二项回归等比较经典的回归模型,但是在实际问题中,观测数据可能存在大量的0或1,这时我们就需要考虑零一膨胀回归模型。自从Lambert 提出了零点膨胀泊松回归模型[1]以来,关于具有零膨胀的计数数据已经有了很多研究,Melkersson等[2]在对看牙医次数的数据进行研究时首次提出了零一膨胀泊松分布,Fahrmeir等[3]研究了一类零膨胀的可加模型,杨亮等[4]、张晓琳等[5]研究了零膨胀回归的贝叶斯方法,王平鲜等[6]研究了零膨胀模型的检验问题,陈异等[7]、孟生旺等[8]对零膨胀模型的实际应用做了研究。

第四,动物园并未配备麻醉枪,但是麻醉枪在本案中是否起到关键作用?就算有麻醉枪,是否能对老虎起效?在本案中,因为麻醉枪对于老虎并不能起到显著的作用,所以在本案中无法起到关键作用。但是基于本案中参考对象是老虎,麻醉枪对于其作用不大,是特殊个体,所以应该仍列入参考范围之内。

在现实生活中,数据可能不是来自于单一总体,如果仍然用同一个模型对数据进行处理,就会造成数据散度偏大。混合回归模型是指多个混合成分按照一定的比例进行混合而组成的回归模型。它可以对总体的“非同质性”进行刻画和描述,自Karl Pearson首次将混合模型用于统计建模后,各类混合模型在基因研究、金融和工程学等众多研究领域迅猛发展。陈家骅等[9]研究了有限混合Von Mises模型的极大似然估计,谢远涛等[10]考虑了Gamma分布簇广义线性混合模型的参数估计问题,王旭等[11]基于高斯混合模型对结核菌图像进行检测,陈远帆等[12]用高斯混合模型对轴承故障进行了诊断。虽然目前对于混合回归模型已经有了很多研究,但仍有较大的探索空间,特别是零一膨胀的混合模型还未涉及。

对照组:患者采用口外弓支抗正畸治疗,佩戴Nance弓(杭州慈北医疗器械)矫正。告知患者Nance弓佩戴方法,每天需佩戴8 h以上;定期复诊(1次/月),对Nance弓适当加力。同时对患者进行口腔卫生宣教。

(3) 在数值模拟静力计算中,对于收敛解而言,滑坡孔隙水压力场与应力场是同步进行的。而实际水库型滑坡演化过程中渗流场与应力场的耦合作用具有时间效应,实测位移波动相比库水位波动、降雨等具有一定的滞后性。这些将导致数值计算位移与实测位移难以同步变化。

以下对零一膨胀泊松回归模型建立了参数的极大似然估计,针对标准的EM算法只能使估计收敛到局部极大值这个缺陷,提出了MCEM算法对传统的EM算法进行修正,使得模型能够找到全局最优解。最后通过模拟研究说明该方法的有效性。

1 零一膨胀泊松回归模型(ZOIP)

零一膨胀回归模型是处理计数数据中0和1都过多的计数模型,假设数据中过多的0和1所占总体数据的比例分别为φ0φ1,其他数据取值服从某种离散分布,也就是说它们各按一定比例进行混合,具体形式为

(1)

[3] Fahrmeir L,Echavarria L O.Structured Additive Regression for over Dispersed and Zero-inflated Count Data[J].Applied Stochastic Models in Business and Industry,2006,22(4):351-369.

从式(1)可以看出数据中的0来自2部分,第1部分的0和第3部分离散分布中的0、数据中的0也是同样的道理。特别的,当φ1=0,φ2=0时,数据完全来自某种离散分布;当φ1≠0,φ2=0时,数据只在1处发生了膨胀;当φ1=0,φ2≠0时,数据只在0处发生了膨胀,式(1)就简化为零膨胀模型。

φ1≠0,φ2≠0,并且式(1)中的某种离散分布为泊松分布时,模型便为零一膨胀泊松分布,具体形式为

(2)

[4] 杨亮,孟生旺.零膨胀损失次数的贝叶斯分位回归模型[J].数量经济技术经济研究,2017,34(5):149-160.

前文所引彭绍升《儒行述》中的徐枋小传,在其篇末是这样表明史源的:“《居易堂集》《苏州府志》。”是则,传主的自我人生选择,特别是诗文集中的自我抒怀和陈情,对身后为其写作传记、行状者,还是起着至关重要的作用的。对此,徐枋本人是深信不疑的,这在其自编《居易堂集》的时候,就表现得尤为突出,在《自序》中,他这样说道:

(3)

其中:βγ0γ1为回归系数向量。

2 ZOIP混合回归模型

混合回归模型是将响应变量服从混合分布的情形模型化,从而对总体的“非同质性”进行描述。也就是说,混合回归模型是指多个混合成分按照一定的比例进行混合而组成的回归模型。在实际中,混合成分的个数大多是有限的,我们把这类模型称之为有限混合回归模型,具体形式为

(4)

其中:yi(i=1,2,…,n)为混合总体的样本;p为混合成分的个数;πj(0<πj<1)为数据来自混合成分j的先验概率。fj表示第j个混合成分的密度函数。

若每个混合成分是零一膨胀回归模型,则得到零一膨胀有限混合回归模型。重点研究具有2个混合成分的ZOIP混合回归模型:

0<π<1

(5)

其中:k=1,2由式(2)给出。

3 ZOIP有限混合回归模型的极大似然估计

Y0=(yiXiZi)为观测数据,于是模型(5)基于观测数据的对数似然函数为

(6)

其中:f(yi|θk)由式(2)和式(3)给出。

通过式(6)可知,对于混合系数π的相应估计方程为

(7)

在实际计算中式(7)是很难求解的,即使得到混合系数π的相应估值,也可能超出π要求的范围。受数据添加思想的启示[3],我们首先引入指示变量wi,若yi来自第1个混合成分,记wi=1,否则wi=0。这样就可以给出完全数据集Ycom=(Y0wi),其中Y0=(yiXiZi)为观测数据。

基于完全数据的对数似然函数为

π+(1-wi)log(1-π)]+[wilog f(yi|θ1)+(1-wi)log f(yi|θ2)]}。

(8)

由式(8)可以看出,基于完全数据的对数似然函数关于添加的潜在变量是线性的,虽然项数有所增加,但是计算却相对容易。其所对应的Q函数为

其中:表示在第t步迭代中参数θ估计的当前值表示该期望的计算是在条件分布下得到的。

4 改进的MCEM算法

由于传统的EM算法[13-14]只能使得估计收敛到局部极大值,MCEM算法虽然克服了传统的EM算法使得估计收敛到局部最优解上的缺陷[15],但是其收敛速度却大大降低。为了提高MCEM算法的速度,以概率统计理论的数值计算方法为指导,通过实验的方法来估算随机变量的期望,进而对MCEM算法进行改进,具体算法包括如下3步骤:

第1步:给定模型参数不同的初值,用EM算法求出几个局部最优值。用其中拟合效果较好的作为下面算法的初始值。

第2步:(1)从条件分布f(wi|θ(t)Y0)中随机抽取m个样本,其中θ(t)表示第t次迭代后θ的估计值;f(wi|θ(t)Y0)表示在给定当前θ和观测值Y0下,潜在数据wi的条件预测分布。

m越大当然精度越好,但是m过大又会导致计算速度变慢,所以选择合适的m非常重要。为了避免速度过慢,先选择较小的m,然后再依次增加m,进而提高精度。

(2)计算

(9)

得到的就是的Monte Carlo估计,并且只要m足够大,就可以认为基本相等。

(1) 单边供电模式下2列AW3车同时起动电流峰值(4 400 A)未达到电流速断保护的整定值(9 000 A);

第3步:将极大化,采用了Newton-Raphson迭代法求出

至此就对模型参数完成了1次迭代,重复上述过程直到收敛求出全局最优解。

党的十九大报告指出:我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经济结构、转换增长动力的攻关期。必须坚持质量第一、效益优先,以供给侧结构性改革为主线,推动经济发展质量变革、效率变革、动力变革。报告为集团公司炼化、销售业务的改革发展指明了道路,理清了方向,为化解产销矛盾提供了理论依据。

实际上,在改进的MCEM算法中,首先应该考虑的是确定mm越大精度越好,但是m过大又会导致计算速度变慢,所以选择合适的m非常重要。另一方面,MCEM算法和EM算法的收敛方式不同,θ(t)最终会在真实值的附近小幅度跳跃,直到充分小,就认为估计序列收敛了。

5 模拟研究

为了说明该方法的有效性,以下将用一个模拟研究来对比EM算法和MCEM算法。考虑具有2个混合成分的ZOIP混合回归模型(5),其中每个ZOIP回归模型为

首先模型中两成分的混合比例π=0.6,真值分别为

[7] 陈异,戴琳,寇鹏.零膨胀泊松回归模型及其在交通事故中的应用[J].计算机技术与发展,2013,23(10):163-166.

表1 2种算法下的参数的极大似然估计

Table 1 Maximum likelihood estimation of parametersunder two algorithms

paraEMMCEMparaEMMCEMβ100.54670.5431β200.50890.5034β110.23850.2316β210.36970.3566γ1,000.60370.6047γ2,000.49670.4967γ1,010.18570.1987γ2,010.43670.4389γ1,100.25430.2587γ2,100.25780.2579γ1,110.13420.1340γ2,110.40560.4037

表2 2种算法下的迭代速度

Table 2 Iteration speed under two algorithms

算法迭代次数EM34MCEM20

从表1计算结果中容易看出,MCEM算法在E步中由于使用Monte Carlo模拟所牺牲的精度,在M步中被补偿了回来,这表明MCEM算法在计算的可行性方面表现良好。另一方面,MCEM算法由于M步采用了Newton-Raphson迭代法。从表2可以看出,MCEM算法的收敛速度也优于EM算法的收敛速度。通过模拟得出,MCEM算法无论在计算的可行性方面还是在收敛速度方面,都有着良好的表现。

6 结论

首先提出了计数数据中0和1偏多且具有“非同质性”的ZOIP混合回归模型,其次对具有有限混合成分的ZOIP模型建立了参数的极大似然估计。为了克服EM算法缺陷,引入MCEM算法并对其进行修正。最后通过模拟研究说明了该方法的有效性。但是在建模过程中,并未对混合比例考虑回归,这将是零一膨胀泊松混合回归模型后续的研究重点。

对零一膨胀模型的参数部分引入协变量向量XZ,这样便得到了零一膨胀泊松回归模型(ZOIP)的具体形式:

参考文献

3.2 普通高校的师资力量有待提高,专业的定向运动制图人才需要大量培养,以满足学生对定向运动的专业人才需求。

⑮[美]詹姆斯·奥康纳:《自然的理由——生态学马克思主义研究》,唐正东、臧佩洪译,南京大学出版社2003年版,第11页。

[1] Lambert D.Zero-inflated Poisson Regression with an Application to Defects in Manufacturing[J].Technometrics,1992,34(1):1-14.

[2] Melkersson M,Olsson C.Is Visiting the Dentist a Good Habit? Analyzing Count Data with Excess Zeros and Excess Ones[D].Sweden:Umer University,1999.

其中:f(y)表示其来自某种离散分布,如泊松分布、二项分布等,φ2=1-φ0-φ1

[6] 王平鲜,黄介武,常国艳.基于ZIP模型的零膨胀检验方法的比较研究[J].经济数学,2017,34(1):6-10.

其中:φ2=1-φ0-φ1,0来自非泊松分布中的0和泊松分布中的0;1也是同样的道理。

[5] 张晓琳,付英姿,褚培肖.基于偏斜正态分布的零膨胀负二项层次回归模型的贝叶斯分析[J].统计与决策,2016,32(2):8-12.

2)组织方要对志愿者进行统一培训,要求其了解景点、景区的景观、人文、环境、特点的同时,还要对其文化品牌有所认知;在熟记景点、景区游览词的同时,还要对突发状况有所认知;在了解历史突发事件发生与解决方案的同时,还要对应急处理方法与机制所有认知,使得旅游类志愿者综合判断力与能力总体提高。

对于第1个混合成分,接下来从标准正态分布中产生100个随机数,协变量x的值由这些随机数产生,接着从零一膨胀回归模型中产生100个随机数yi。然后对于第2个混合成分采用同样的方式产生随机数。由于EM算法的估计值会受到初始值的影响,所以给定3组不同的初始值并选择效果较好的1组作为代表。对于改进的MCEM算法,采用与EM算法相同的初值,令m=80,然后2种算法都以为收敛标准,求出模型参数的极大似然估计,迭代结果见表1,迭代速度见表2。

因循慎终追远式的反思,人类与外部世界及其自身关系的体认,已经掀开了人和自然矛盾冲突的面纱,触及如何审察人类生存危机的基本命题。伴随着“中心—边缘”物质关系交换谜题的交错起落,理论界面临着如何诠释人和自然、人和人、人和社会整体关系的全新论题。纵观思想风暴的中心区域,剥离人类中心主义“思想王权”的呼声跌宕起伏,添置自然中心主义“精神桂冠”的吁求不绝于耳。

[8] 孟生旺,杨亮.随机效应零膨胀索赔次数回归模型[J].统计研究,2015,32(11):97-102.

[9] 陈家骅,李鹏飞,谭鲜明.混合Von Mises 模型的参数估计[J].系统科学与数学,2007,27(1):59-67.

[10] 谢远涛,杨娟,徐梅笛.广义Gamma分布簇广义线性混合模型的参数估计[J].统计与决策,2013,29(5):14-17.

[11] 王旭,鞠颖.基于高斯混合模型的结核菌图像检测[J].电脑知识与技术,2014,10(10):2363-2366,2377.

[12] 陈远帆,李舜酩.基于高斯混合模型与改进网格搜索法的轴承故障诊断[J].重庆理工大学学报:自然科学版,2016,30(3):34-39.

在OSCE执行过程中,考站的分类不同,分类范围在3~14个不等,主要包括笔试、案例分析、技能操作、护理文书书写等过程,考查学生能力范围较广。应用型护理本科生在学校内主要学习时间在教室和实验室内,基本的理论知识和扎实的技能操作是学生必备的知识储备,要想在临床上发挥真实的临床实力,仅仅单一的理论基础和技能操作是不够的,要将两者有效结合,加之案例导入,增加见习机会,还要求学校在教学方法中保持灵活多变的特点,应用OSCE考核方式,学生的知识掌握更加灵活牢固,且能摆脱刻板的知识单一灌输型教学方法,提高学生学习的积极主动性。

[13] 李顺静.基于不完全数据的最大似然估计方法:EM算法[J].重庆工商大学学报:自然科学版,2014,31(5):29-33.

一些我们今天称之为“目击者”的证人,当时也会遭到狱吏的拘押。狱吏从便利自己工作的角度出发,担心那些在邸店或路途中的干证人,因其非本辖区之人,不易追回官府,所以不让他们依法办理保识出狱,直到结案后犯人没有“翻异”即翻供,干证人等才可释放。有时干连人被视为有罪的“重囚”,在追证中干证人死亡的不在少数。如在广东惠州的一个案件中,追逮超过二十九名干连人,有些人就瘐死狱中,其他人在案情真相大白后才最终获释。而县衙为了获得“实情”,对干证人进行诘问、“榜笞”,令人触目惊心。

[14] 王幼琴,赵忠盖,刘飞.缺失数据下基于EM算法的非线性过程建模[J].化工学报,2016,67(3):931-939.

[15] 卢玉桂,韦新星,赵丽棉.多层线性模参数估计的MCEM算法[J].数学的实践与认识.2016,46(11):225-230.

为打造“食安威海”城市品牌,威海市在全国首创“食安、农安、公安”三大系统资源共享、行刑衔接、联勤联动的“三安联动”工作机制,实现了从农田到餐桌的全程监管。

吕敏红,张惠玲,吴成晶
《甘肃科学学报》 2018年第02期
《甘肃科学学报》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号