更全的杂志信息网

基于MIC的江苏省邮电业务数据分析应用

更新时间:2009-03-28

0 引言

当今社会,人类活动产生的各种痕迹生成数据,通过不同渠道源源不断地积累和记载于数据库中。随着大数据在当今科学研究领域乃至社会的关注度与日俱增,人们对其理解不再仅限于数据本身的价值,而是更加关注数据背后呈现的关联性,这就需要数据分析,构建数据模型等相关技术手段来实现。

村民一时不明就里,猜议纷纷,便寻问三隐书院的秀才。时任书院山长是辞官归隐的七品县官,他说药僧并非凡人,乃前朝崇祯皇帝的三太子,当年躲过李自成杀戮后逃出京城,隐名埋姓,不问世事,栖身山野修行。而当朝清帝不放心,视其为心头大患,前后几个皇帝都在搜捕追杀,必欲置之死地而后快。百姓闻言,纷纷祈祷三太子吉人天相,改口把药僧桥叫太子桥。

邮电业务是邮政和电信部门为社会各行各业和人民群众提供各种产品和服务的总称。其设施和网络遍布城乡、联通各地,是与经济发展和社会生活密切相关的基础设施。对于地域经济发展而言,邮电业务主要用于满足地区内个体及社会团体对各种信息的分享与交流需求,是必不可少的一个部门。因此在社会发展的过程当中,人与人之间的关系越密切,研究邮电业务的作用和意义就越深远。本文基于2011~2015年江苏省全省及各地市的邮电业务基础情况数据,运用基于最大信息系数MIC的数据模型分析邮电业务数据内部两两指标之间的关系,并提出相关决策的理论依据。

(2)从政治角度分析,可体现以下方面:政府的职能。要加强市场监管,维护消费者合法权益;政府的宗旨和原则。我国政府加快中国速度向中国质量转变,体现为人民服务的宗旨和对人民负责的原则;国际竞争的实质。要重视以质量来增强企业国际竞争力,有利于提升我国综合国力。

1 数据收集与模型选择

1.1 数据收集

经过邮政局和电信局受理承办的各种业务,统统称为邮电业务,其中包括邮政、电信、互联网等相关业务。本文选取江苏省2016年统计年鉴中的邮电业务部分作为数据来源,该数据集中包含全省及13个地市关于邮政行业业务、电信业务总量及收入和快递、长途电话、移动短信、长途光缆线路长度等35个指标,此数据样本的时间跨度为2011~2015年。

该数据集属性多样,数据真实可靠,具有一定的可信度和研究价值。

1.2 模型选择

苗床设置在温棚中。温棚东西走向,长30 m,宽12 m,高2.7 m,钢筋骨架,覆盖材质为长寿无滴膜,夏季有黑色遮荫网覆盖。

Pearson相关系数(Pearson correlation coefficient) 也叫皮尔森积差相关系数(Pearson product-moment correlation coefficient),是用来反映两个变量相似程度的统计量。或者说可以用来计算两个向量的相似度(在基于向量空间模型的文本分类、用户喜好推荐系统中都有应用)。

皮尔森相关系数计算公式如下:

(1)Pearson相关系数

燃料及助燃空气系统主要由分区关断阀、先导式减压调节器(SR)、先导式平衡零位调节器(BRR)、空气脉冲管路、燃气比率调节阀、火力控制阀及输送管路等组成。

 

(2)互信息

通过对国内外相关研究的梳理和研究动态分析,发现研究可以分成以下3个方面:1) 关于多模态语料库创建和应用研究;2) 关于翻译工作坊研究;3) 关于教学与实训平台创建研究.

 

(3)最大信息系数 MIC(Maximal Information Coef fi cient)

利用Pearson相关系数或者Spearman相关系数等可以有效地度量数据的线性相关性,甚至可以通过回归分析确定线性关系和简单非线性关系的数学公式。然而由于自然规律的复杂性,现实世界中的数据之间即使有较强的相关关系,绝大多数也是非线性的而且无法用简单的数学公式表达。为了度量数据间非线性相关性的强弱,科学家们提出了基于阀值相关、相位同步相关、距离相关、互信息等的度量方法。

图1是表明在线性函数上进行噪声处理,对其相关性度量会有多大影响。因为在实际大型数据集中,数据是分散而无序的。而面对0.2比例的加噪,Pearson相关系数比MIC仍有较好的测量;但当噪声比例加到1时,Pearson相关系数已无法检测其相关性,此时的MIC值仍有0.1。这就说明,面对噪声极大的函数,无论其是否是相关函数,MIC的度量比pearson相关系数更可靠。

非线性相关系数= MIC(X,Y)-ρ^2 (X,Y)

模型对比所运用到的函数分别有:线性直线,三角函数,椭圆等;测试样本容量为1000;置协方差系数分别为:1.0,0.8,0.4,0.0.-0.4,-0.8,-1.0。实验结果如图1、图2和图3所示:

2、MIC普适性,可以检测出相关系数无法识别的函数关系。

人文关怀是顺应护理发展而一种较新的临床护理模式,充分体现人道主义,以患者为中心开展护理工作。随着近几年我国人口老龄化的加剧,加之经济的高速发展,人们对护理分要求和质量也逐渐有较高的需求。离退休老干部作为社会的特殊群体,由于环境因素、社会因素等多种影响,对其心理状态有一定的影响,

因此,本文将用MIC作为数据关联性的主要衡量标准。

2 模型对比与优化

本节根据上文介绍的Pearson相关系数、最大信息系数MIC模型进行对比,论证MIC作为数据特征度量的优越性。并在此基础上,结合两个相关系数,设计一种基于MIC的优化模型用于分析邮电业务数据。

2.1 模型对比

首先,为了验证MIC作为相关度量的优越性,本文采用Pearson相关系数作为参考指标进行比较分析,运用数据测试工具生成不同函数图。其中一个关键性问题是如何运用相应的程序评估捕捉完整的线性与非线性相关依赖。然而,如何检测非线性信息依赖是一个问题挑战,特别是处于噪声的数据具有可用性时。因此,第二个关键问题是如何使用评估技术检测非线性的可靠有用的数据。同时,也需要一个明确的测量方法去度量噪声中可靠健壮的数据来确定数据间的非线性关系。

1、MIC稳健性,即MIC不受异常值的影响,然而相关系数易受异常值的影响。

  

图1 直线加噪旋转测试MIC、Pearson相关系数

 

表1 图1的MIC和Pearson相关系数实验结果(n为噪声r为旋转)

  

函数处理 M I C P e a r s o n r n=0.0 r= 1.0 1.0 n=0.2 r= 0.4 0.7 n=0.6 r= 0.2 0.4 n=1.0 r= 0.1 0.0 n=0.6 r= 0.3 -0.4 n=0.2 r= 0.5 -0.8 n=0.0 r= 1.0 -1.0

最大信息系数(The Maximal Information Coef fi cient,MIC)是在互信息的基础上发展起来的,MIC方法能快速通过给不同类型的关联关系进行评估,从而发现广泛范围的关系类型。MIC可以检测各种类型的函数关系,比如。当存在f使得Y=f(X)时,MIC(X,Y)=1;如果X与Y相互独立时,那么MIC(X,Y)=0。

  

图2 线性直线旋转测试MIC、Pearson相关系数

 

表2 图2的MIC和Pearson相关系数实验结果

  

函数处理 M I C P e a r s o n r n=0.0 r= 1.0 1.0 n=0.2 r= 0.4 0.7 n=0.6 r= 0.2 0.4 n=1.0 r= 0.1 0.0 n=0.6 r= 0.3 -0.4 n=0.2 r= 0.5 -0.8 n=0.0 r= 1.0 -1.0

根据图2、表3对比可知,面对线性相关的函数,MIC没有Pearson相关系数准确;但是作为互相关度量,两个事件的互信息是对称,即MIC(X,Y)=MIC(Y,X),所以函数的旋转对于MIC没有影响,而Pearson相关系数则会出现负值。这对于数据关联性的测量具有较好的呈现,即在对比分析时,无需考虑正负差异和主因变因交换是否会影响分析结果。

  

图3 其他函数加噪测试MIC、Pearson相关系数

 

表3 图3的MIC和Pearson相关系数实验结果

  

函数处理 M I C P e a r s o n r 0.7 0.0方形 0.2 0.0菱形 0.2 0.0三角函数加噪 0.4 0.0旋转r= 0.4 0.0椭圆 0.6 0.0四个聚类 0.1 0.0

图3则是在非线性加噪函数模型上的相关性测量,MIC在面对加噪非线性相关函数呈现较好的度量,并且根据函数的线性关系数值增大或减小,如三角函数和椭圆就明显比其余图像的值更大。而Pearson相关系数则是全部为0。由此可见,对于非线性度量,MIC也有很好的测量性。所以MIC相对于以Pearson相关系数为代表的线性相关性度量更适合面对大型非线性数据集的数据分析。

2.2 模型优化

因为最大信息系数MIC作为互信息基础上发展出来的相关系数,其本质仍然是测量两个随机变量之间的线性相关程度。对于非线性相关,最大信息系数MIC并没有非常好的表现。因此本文根据最大信息系数定义,结合皮尔森积差相关系数,用于测试数据之间的非线性相关,其公式为:

由于企业公允价值确认在大多数时是一个估计的结果,所以,其在企业实际应用过程中极易被利用成为操纵利润的工具。同时,企业会计准则不是一种技术手段,不同准则会生成不同的企业会计信息。企业公允价值变动被计入到当期损益之中,其对企业的实际经济收益情况造成了改变,比如当企业交易性金融资产公允价值发生变动时,其将会使得企业产生经济利得或造成经济损失,从而改变企业的短期投资,且只确认了资产的减值,并未确认资产的升值收益;而企业衍生金融工具,其不但能够增加企业的资产或负债,同时还能够直接对企业当期损益情况造成影响。

MIC与相关系数相比有以下两个优点:

其中:ρ(X,Y)为皮尔森积差相关系数,且当MIC(X,Y)-ρ^2(X,Y)>0时,两个变量间存在非线性关系。

互信息是信息论里一种有效的信息度量,它可以看成是一个随机变量中包含另一个随机变量的相关信息量,或者说是一个随机变量由另一个已知随机变量而影响其自身的不稳定性。互信息的定义是,设两个随机变量 (X,Y)的联合分布为p(x,y),边际分布分别为 p(x),p(y) ,因此互信息I(X;Y)作为联合分布p(x,y)与乘积分布p(x),p(y)的相对熵,即:

3 应用分析

根据前文的方法进行特征度量并建立模型。首先,从江苏省2016年鉴中选取邮电业务作数据集,将数据集中的邮电业务总量与邮电业务收入两个指标设为自变量,其他指标作应变量,输出其MIC与MIC-ρ^2模型结果。然后,对两项指标的MIC与MIC-ρ^2 值进行比较,筛选出相关数据。最后,对结果进行讨论以了解观察到的差异,并针对改进的方法提出了一些见解。

将与邮电业务总量MIC值最高的前14项指标以表格的形式将其MIC和MIC-ρ^2值列出,如表4所示:

 

表4 邮电业务总量(亿元)相关因素表

  

应变量 M I C M I C-电信业务总量 0.9 9 5 7 2 0.0 0 0 2 6 3电信业务收入 0.9 9 5 7 2 0.0 0 3 7 3 7年末固定电话用户 0.9 9 5 7 2 0.0 8 6 2 0 6年末移动电话用户 0.9 9 5 7 2 0.0 4 3 5固定宽带接入用户 0.9 9 5 7 2 0.0 1 1 4 7邮政行业业务总量 0.6 7 7 1 3 -0.2 9 6 3 4邮电业务收入(亿元) 0.6 7 7 1 3 -0.3 1 7 9邮政行业业务收入 0.6 7 7 1 3 -0.2 6 4 1 9函件(亿件) 0.6 7 7 1 3 -0.2 0 2 6 6包件(万件) 0.6 7 7 1 3 -0.2 6 3 0 1快递(万件) 0.6 7 7 1 3 -0.1 7 0 3 1报刊期发数(万份) 0.6 7 7 1 3 -0.1 8 4 8邮路及农村投递路线总长度 0.6 7 7 1 3 0.1 6 6 6 0 7汽车邮路 0.6 7 7 1 3 -0.0 0 0 2 5 7

由表4可看出,MIC值分为0.99572和0.67713两个档,其中电信业务总量、电信业务收入、年末固定电话用户、年末移动电话用户和固定宽带接入用户是MIC值最高的5项。这说明该5项与邮电业务总量具有极大相关性,而针对这5项的MIC-ρ^2值进行排序分析,可看出年末固定电话用户与年末移动电话用户这两项指标是具有较大的非线性相关,也就是数据之间内部潜在的关联性较高。由此,可得出推论:对于邮电业务总量,电信业务与其相关性极高,说明电信业务的增长能带动邮电业务总量的增长;其中,固定电话用户与移动电话用户是最能刺激邮电业务总量的两项指标,如果能对这两项数据进行有效提升,可大幅提高邮电业务总量。

将与邮电业务收入MIC值最高的前14项指标以表格的形式将其MIC和MIC-ρ^2值列出,如表5所示:

江平不知道霍铁为什么忽然想欣赏新完工的蜡像,但还是用手指指靠窗的一个角落,陆叔叔今晚做好的蜡像在那里,用一层薄薄的塑料膜盖着。

 

表5 邮电业务收入(亿元)相关因素表

  

应变量 M I C M I C-邮政行业业务收入 0.9 9 5 7 2 0.0 3 2 2 6 5快递(万件) 0.9 9 5 7 2 0.1 2 2 2 0 3电信业务收入 0.6 7 7 1 3 -0.3 0 8 7 8函件(亿件) 0.6 7 7 1 3 -0.2 1 4 3 6包件(万件) 0.6 7 7 1 3 -0.2 7 1 2 9年末固定电话用户 0.6 7 7 1 3 -0.2 0 3 8 9年末移动电话用户 0.6 7 7 1 3 -0.2 4 9 0 7固定宽带接入用户 0.6 7 7 1 3 -0.2 8 9 8 1人均邮电业务量 0.6 7 7 1 3 -0.1 7 3 0 7汽车邮路 0.4 9 6 4 7 -0.1 4 3 2每百人平均订阅报刊量 0.4 9 6 4 7 0.1 8 8 3 9 5电话普及率 0.4 9 6 4 7 -0.1 5 8 6 6固定电话普及率 0.4 9 6 4 7 0.1 3 0 9 3 9邮政局所(个) 0.3 1 7 8 1 0.2 2 1 5 6 8

同理分析表5,可看出MIC值主要分为0.99572、0.67713、0.49647和0.31781四个值,其中邮政行业业务收入、快递是MIC值最高的2项,并且MIC-ρ^2值皆为正。这说明该2项与邮电业务收入具有数据内部之间的极大相关性。而电信业务收入与邮政行业业务收入相比,无论是MIC值还是MIC-ρ^2值都没有后者高,同理分析剩下的11项指标,由此可以得出推论:对于邮电业务收入,邮政行业业务收入,特别是快递业务对其影响远高于其他指标。如果能加大快递业务的扩展,提高快递业务的规模,对邮电行业业务收入会有明显的提高。

综合邮电业务总量与邮电业务收入两项相关因素表,不难看出,电信业务占邮电业务总量的主体,对邮电业务具有极大相关性的影响;但在邮电业务收入方面,邮政行业业务特别是快递业务对邮电业务收入的影响巨大。因此针对邮电业务收入,可以着重发展快递业务,从而有效保证邮电业务收入指标的提升;并同时对电信业务进行维持与扩展,从而保证邮电业务总量的稳步增长。

4 结论

本文基于最大信息系数MIC的模型设计了一个优化模型,并根据这两个模型对江苏省近5年来的邮电业务进行了分析应用,提出了关于邮电业务总量与邮电业务收入的相关建议。首先,列举类比了线性相关Pearson相关系数与最大信息系数MIC;然后根据MIC设计了一个数据内部间非线性相关的度量模型MIC-ρ^2;最后选取江苏省2016年统计年鉴中邮电业务的数据,以MIC和MIC-ρ^2为相关性度量,提取特征值。分析研究结果显示,邮电业务总量主要影响在于电信业务,而邮电业务收入则主要影响在于邮政行业业务收入,特别是快递业务。

基于MIC的新优化模型更有利于用户在数据分析的同时,发现数据内部之间的非线性相关性,这样更有助于邮电业务从业者对关键影响因素指标进行分析定位。例如,邮电业务总量中,固定电话用户与移动电话用户的MIC值一样,此时就需要运用MIC-ρ^2。通过对比得到:移动电话用户相较于固定电话用户对邮电业务总量有更大的影响,从而帮助邮电业务从业者针对相关指标作出更好的分析决策。

公司将秉承“矿业报国,振兴民族经济”的核心价值观努力发展,将成为世界500强的国际化大型矿业资源跨国公司作为企业目标。

 
郝诗佳
《江苏通信》 2018年第02期
《江苏通信》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号