快捷分类

两参数Gamma分布模型下缺失数据的参数估计

更新时间：2009-03-28

0 引言

在利用统计学方法解决实际问题时，通常会出现数据缺失的现象。例如，在流行性感冒的调查过程中，调查对象通常是与暴露者(主动去医院检查出有流行性感冒的人)有接触的人群，而忽略了未就医的流行性感冒患者。因此，所得到的样本往往不具有代表性，即存在数据缺失这一问题，仅用它们来分析和评价总体调查情况是不合适的。这也反映出抽样调查中不可避免的一类数据缺失问题。但是，由于收集数据资料花费了一定代价，当存在数据缺失问题时，人们也不能直接放弃对数据的分析与利用。因而，采取适当的方法对缺失数据进行处理与推断十分必要。

关于数据缺失的统计和推断问题，国外已经有许多研究。Bowley最先提出数据缺失这一问题,并强调了识别数据缺失机制的重要性[1]。Yates[2]对缺失数据问题进行了大量的专题研究,提出了对缺失数据进行处理的经典方法。Dempster[3]提出一种有效估计不完全数据的算法——EM算法。EM算法及其变种成为处理缺失数据的一种重要工具。此外，更多国外关于缺失数据的处理方法及其基本理论可参考Little和Rubin的著作[4]。国内关于缺失数据处理和推断问题也有许多研究。金勇进对处理缺失数据中辅助信息的利用问题进行了探讨[5-6]，并与朱琳合作对集中填补方法进行了比较研究[7]。李丽[8]为了解决数据缺失问题和填补缺失数据，系统地分析和对比了不同缺失数据类型的优缺点和处理效果。周静[9]通过模拟与实证相结合的方法进行数据缺失机制的识别。禹建奇[10]研究了等级数据缺失情况下2个多元正态总体均值向量的缺失数据推断问题。金勇进[11]对各类缺失数据的处理方法及应用进行了讨论与分析。

在数据缺失问题的分析研究过程中，了解数据缺失机制非常重要。Rubin将数据缺失机制分为3类，即完全随机缺失(MCAR)、随机缺失(MAR)、非随机缺失(MNAR)。本文主要讨论非随机缺失机制下缺失数据的参数估计问题,推广指令性抽样下的总体均值和方差估计这2种解决办法。

1 模型的参数估计

设总体分布族为f(x;ω)，其中ω是p维未知参数向量(如均值参数、方差参数)。若总体的k(k≥p)阶矩存在，则参数向量ω可由矩法估计基于总体的一组样本而得到。但是该抽样过程无法得到完全数据，只能观察到不完全样本数据y1,y2,…,ym(m<n,n为样本总量)。该样本虽然是独立同分布(i.i.d.)，但却来自不同指令性变量(I)条件下的条件分布f(x;ω|I=1)，(其中，I=1代表数据有观测，I=0代表没有观测，并且

f(x;ω)=pf(x;ω|I=1)+(1-p)f(x;ω|I=0)，

(1)

式(1)中，p=P(I=1)。采用指令性抽样下的总体均值和方差估计解决方案，同时基于观察数据所提供的信息，可以通过概率统计方法补充条件分布f(x;ω|I=1)中的缺失数据z1,z2,…,zk，其中k为补充样本数。然后，以观察数据和补充数据的样本k阶原点矩

式(4)中,

(2)

作为总体r阶原点矩μr的估计，从而得到总体参数向量ω的估计。其中，可以利用几何分布思想对式(2)中的参数k进行估计，即一个事件发生(观测到y)的概率若为p(y,ω)=P(I=1|y)，则没有观测到同类事件的平均估计有(1-p(y,ω))/p(y,ω)次。于是，对观察数据Y=(y1,y2,…,ym)来说，应该补充的样本数据容量k估计为：

,ω))/p(yi,ω)。

(3)

现在考虑的“估计”问题，缺失值z的分布为:

f(z;ω|I=0)

(4)

//(m+k)

人物简介：贾平凹，1952年生于陕西省商洛市丹凤县棣花镇，毕业于西北大学中文系，当代作家，全国人大代表。2003年，先后担任西安建筑科技大学人文学院院长、文学院院长，曾获得首届全国优秀短篇小说奖、第七届茅盾文学奖、施耐庵文学奖等重要奖项。主要作品有《满月儿》《二月杏》《秦腔》《古炉》，等等。

p(ω)(z;ω)f(z;ω)dz。

(5)

我们可以用z的r阶原点矩

E(zr;ω·f(z;w)(1-p(z;ω))dμ(z)

大湖呈现完美的卵形。孕育过人烟和俗世的气味和痕迹被扫荡一空。湖面上栖息过路灰雁，发出断续苍凉叫声。因为有人迹靠近，这群大鸟在突然之间振翅拍打，如同一股悸动的风暴，飞往空中远去。

(6)

来“估计”此处，本文逆向使用了矩估计方法。2种估计方法(1)与(2)都与未知参数有关，需要用一个迭代过程来解决相关的参数估计问题。根据文献[12]中的正态分布假设下的统计推断问题，本文将相关结论推广到Gamma分布模型中，以解决相关参数的估计问题。

制川乌凝胶膏剂基质处方优化及体外释放研究…………………………………………………… 吴璐等（1）： 37

2 两参数Gamma分布模型的应用

假设总体服从两参数Gamma分布，其密度函数定义为：

对于瘤体边界模糊,瘤体过大的患者,可以选择瘤内切除,将瘤体根据分裂情况来进行切除。如果瘤体功血丰富,附近的血管复杂,在进行分离的时候,将功血血管电凝后进行切除,防止患者手术中脑血管出血而死亡。如果患者的脑胶质瘤在功能区域,需要采取适当的分离操作,将瘤体分离后,进行小块的切除,该情况不需要强制全切,防止患者的脑功能受到影响[3]。

,a>0,b>0)。

(7)

式(7)中，a是形状参数,b是尺度参数。可知两参数Gamma分布的一阶原点矩和二阶原点矩分别为：μ1=ab和μ2=a(a+1)b2。设X1,X2,…,Xn为来自两参数Gamma分布总体的一个容量为n的完全简单随机样本。由矩法估计思想可得参数a和b的矩估计为：

(8)

但是，在本文中的缺失机制下得不到上述的完全数据。这与式(3)、式(6)、式(8)及成功观测的概率选取有关，对于给定的y，观察到它的概率(成功概率)呈指数分布，即：

p(y,λ)=1-exp(-x/λ)。

(9)

式(9)中，参数λ可根据参数a,b和数据缺失的比例给定(给定方法在第3部分的模拟研究中给出)。由文献[12]知，在正态分布模型假设下，成功概率同时也给定为正态分布时，数据缺失的比例为1/2；而在指数分布的假设下，数据缺失比例是可以调整的，对实际出现的数据缺失问题具有更强的适用性。此外，观测成功的概率选取还有其他方面的考虑，比如基于实际问题的考虑，数学上要求迭代公式简便。

为得到参数a和b的估计，我们还需要计算以下结果：

P(a,b,λ)=1-(λ/(b+λ))a；

由式(13)和式(14)可以得到下面的迭代公式：

(10)

E(z|a,b,λ)=abλ/(b+λ)；

(11)

E(z2|a,b,λ)=(bλ/(b+λ))2a(a+1)。

土地是财富之母，是我国农村人口的重要财富来源与财富象征；同时，土地是重要的生产和生活资料。贵州省山多地少，可以利用的土地资源稀缺，因此，充分利用好土地资源，通过政策、工程手段、科学技术等发挥其潜在价值，对于贵州省实施精准扶贫，帮助农村地区贫困人口摆脱贫困，走可持续发展的致富之路具有重要的理论意义和现实价值。

(12)

在迭代计算过程中根据给定参数的第t步值可以得到：

,//[m+E(k|Y,，

比如，红寺堡区大河乡大河村30%以上的土地已经盐渍化，无法种植粮食作物，通过开沟和埋管等方式排除盐碱可以减轻土地盐渍化，但村民反映，效果不明显。目前在盐渍化不太严重的土地上可以种植枸杞，但是如果盐渍化得不到有效控制，严重盐渍化的土地只能抛荒。

(13)

,,/

(14)

造成志愿者语言服务现状的原因有诸多方面，要想真正提高这一群体的整体语言能力和综合服务素质需要从各个方面加以改进。因篇幅限制和研究时间有限，该文仅选取一个方面来提供一些解决思路。笔者从与志愿者群体直接对接的活动主办方这一角度出发，就应如何提升其服务能力进行分析，笔者从高校志愿者英语服务能力现状和各大赛事活动的现实需求出发，提出以下可供参考的培训途径：

,,/

传感器测量法.传感器检测的主要原理是应用角度传感器，安装在被测对象的踝关节、膝关节和髋关节上，直接测量到各个关节的角度，在结合小腿的长度与大腿的长度，从而计算出臀部的运动轨迹.

(15)

,//[m+E(k|Y,

HPV属于乳头多瘤空泡病毒科(Papovaviridae)的乳头瘤空泡病毒A属，是一种无包膜的正十二面体球形小DNA病毒，会感染人体的皮肤及黏膜上皮组织，不仅会引发宫颈癌，还可能造成扁桃体癌、口腔癌、喉癌、鼻腔内癌以及食道癌等各种严重疾病。

(16)

在式(15)和式(16)中，

kt=E(k|Y,

(17)

将得到的结果代入式(8)中有：

(18)

在估计得到两参数Gamma分布模型的参数a和b后，可以对比较感兴趣的其他参数进行计算，如Gamma分布的分位数：中位数(0.5-分位数)或4分位数(0.25-分位数、0.5-分位数、0.75-分位数)，以及0.05-分位数和0.95-分位数等，从而得到估计数据的合理取值范围。

3 两参数Gamma分布模型的模拟研究

为了评估两参数Gamma分布模型的合理性，在本文的数值模拟研究中，以总体服从两参数Gamma分布、概率密度[如式(7)]、成功概率[如式(9)]为条件进行数值模拟研究。同时，成功概率指数分布中的参数λ由Gamma分布参数a和b，以及缺失比例来确定。因此，由式(10)可知，当缺失比例为0.2时，即(λ/(b+λ))a=0.2时，可以得到指数分布中参数λ的取值。缺失数据比例为0.2和0.5的参数估计模拟结果分别见表1和表2，其模拟结果是经1 000次循环计算结果的平均值。

从表1和表2中可以看出，随着样本容量增加，迭代计算所得参数a和b的估计值越来越接近真实值，且迭代次数也有所减少。对于相同的参数a和b，即在相同的方差下，迭代次数大体相同。另外，随着缺失比例的升高，迭代所需要的次数逐渐增加。因此，可以推断出，当缺失比例较小时，估计值更加接近于真实值。

通过实地调查笔者发现，在军庄镇地区分布有断层构造、向斜构造(含“地形倒置”现象)、岩层不整合接触关系(含“构造面沟谷发育”现象)、侵入岩岩墙、岩层层面波痕等多种地质现象，最集中区域方圆不足3.2 km2，这些地质现象不仅类型多样且分布集中(图1).

表1 缺失数据比例为0.2时的参数估计模拟结果

(a，b)完全数据个数n=50n=100n=500n=1000(2，0．05)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(2．2970，0．0566)39．94810．0474．891(2．1416，0．0524)80．01920．2254．892(2．0214，0．0505)399．836100．0934．925(2．0177，0．0502)800．041200．4824．982(2，0．07)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(2．2712，0．0769)40．09810．24349．919(2．1336，0．0737)78．81820．0694．863(2．0320，0．0712)399．598100．1514．935(2．0148，0．0703)800．435200．4354．979(3，0．05)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(3．4335，0．0558)39．97510．0825．432(3．1654，0．0527)8020．1175．391(3．0319，0．0506)399．786100．2395．301(3．0142，0．0512)800．177200．4535．21(3，0．07)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(3．3824，0．0770)40．04310．0655．388(3．1605，0．0738)79．87520．0415．394(3．0498，0．0707)400．245100．2225．307(3．0115，0．0703)799．564200．5415．225

表2 缺失数据比例为0.5时的参数估计模拟结果

(a，b)完全数据个数n=50n=100n=500n=1000(2，0．05)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(2．5370，0．0616)25．08525．4069．746(2．2316，0．0544)50．32450．2649．619(2．0814，0．0505)250．324251．3899．683(2．0277，0．0506)499．411502．3069．708(2，0．07)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(2．4412，0．0816)25．11325．3839．697(2．2936，0．0737)49．86950．3699．773(2．0520，0．0712)250．564251．3629．67(2．0248，0．0708)499．781502．2139．699(3，0．05)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(3．7335，0．0615)24．81225．09810．067(3．2854，0．0527)50．7950．42110．261(3．0819，0．0516)249．536250．42110．281(3．0342，0．0505)499．834501．38510．202(3，0．07)(a＾，b＾)平均观察数据个数平均补充数据个数平均迭代次数t(3．5524，0．0810)25．05525．04610．041(3．3405，0．0768)50．05550．31110．301(3．0518，0．0711)249．635250．36510．242(3．0415，0．0713)499．877501．29310．261

4 结论

针对数据缺失问题，在非随机缺失机制下讨论了基于两参数Gamma分布模型数据的统计推断问题。当数据的缺失比例较小时，数据的推断和统计接近真实值。由于实际生活中数据复杂多样，不一定是符合Gamma分布，该方法也可以推广到其他分布，比如威布尔分布、瑞利分布等，但是相应的缺失机制的假设需要谨慎选取。

参考文献

[1] 邱建青，杜春霖，周婷，等.多变量数据缺失机制的识别方法[J].中国卫生统计，2017(6):1002-1005.

[2] Yates F.The analysis of replicated experiments when the field results are incomplete[J].Journal of Experimental Agriculture,1933,1(2):129-142.

[3] Dempster AP,Laird NM,Rubin DB.Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society,1977,39(1):1-38.

[4] Little RJA,Rubin DB.Statistical Analysis with Missing Data[M].New York:Wiley,1986:43-48.

[5] 金勇进.缺失数据的加权调整(系列之IV)[J].数理统计与管理,2001,20(5)：61-64.

[6] 金勇进.缺失数据的插补调整[J].数理统计与管理,2001,20(6):47-53.

[7] 金勇进,朱琳.不同差补方法的比较[J].数理统计与管理,2000,19(4):50-54.

[8] 李丽.数据缺失及处理方法探析[J].湖南城市学院学报(自然科学版)，2016,25(1):118-119.

[9] 周静，周正松，高旸，等.神经网络模型应用于数据缺失机制识别可行性分析[J].现代预防医学，2017,44(21):3856-3858.

[10] 禹建奇.等级数据缺失形态下两多元正态均值向量的推断[J].统计与决策，2017(11):20-23.

[11] 金勇进,邵军.缺失数据的统计处理[M].北京:中国统计出版社,2009:42-48.

[12] 谢民育,吴茗,熊明,等.指令性抽样下总体均值和方差的估计及其应用[J].应用数学学报,2010,33(2):297-307.

作者

梁远胜，关宏建

出处

《湖北理工学院学报》 2018年第02期

上一篇：基于Q值的公共车位分配的合理性分析

下一篇：加权Besov函数的Carleson刻画

《湖北理工学院学报》2018年第02期文献

水果自动售货机的设计与实现作者：杨秀芝，俞敏，李轩，华文林，杨春杰，董春法

面向机械结构形态的三维模型信息处理作者：周围，徐庆华，徐赐军

典型草坪植物对铜的积累及其耐性差异研究作者：尹春芹，孙清斌，刘先利，王永奎，张丽娟

工业园区农用土壤中重金属Cu和Pb的形态研究作者：方月梅，张晓玲，刘娟，何明礼

不同pH条件下有色冶炼厂周边道路尘及土壤中重金属释放特征作者：徐俊，宋佳，刘英，钟萍，蒋雅雪，张丽，张家泉

单甘酯合成方法的研究进展作者：贾文志，刘聪，胡一鸣，陈卓，蔡霞，欧阳以丹，刘行，朱志荣

夏热冬冷地区图书馆建筑外围护结构改造策略分析作者：潘世斌，周宝玉，王芸芸，陈跃，姜玉凤，范方禄，冯伟

雪面侵蚀系数及其概率分布研究作者：晏克勤

钢结构人行悬索桥运营现状一般评定研究作者：彭伟

土质路堤高边坡稳定性及力学参数分析作者：郭立华

基于Q值的公共车位分配的合理性分析作者：罗小兵

两参数Gamma分布模型下缺失数据的参数估计作者：梁远胜，关宏建

加权Besov函数的Carleson刻画作者：黄佩，王松柏

提升高校课堂教学质量之教学模式初探作者：刘红霞，占长林，尹春芹，王永奎，汤平，张晓玲

建筑信息模型引入“建筑电气工程设计”课程教学的研究与实践作者：梁宁一，张晓杰，陈若曦，贺东方

杂志信息网