更全的杂志信息网

基于Getis-Ord统计的地区用电量多元空间聚类方法研究

更新时间:2009-03-28

1 用电量识别与预测技术介绍

1.1 常规方法

用电量的识别对地方经济发展和配电公司改善电力系统用电管理起着非常重要的作用。现有文献对用电量的分析大都集中在异常用电量的识别、正常用电量的影响因素分析以及预测方面。

(1)《网店运营》课程特别强调实战性,所有教学任务都必须在淘宝、微店、拼多多等电商平台上实施,才能让学生真正掌握网店运营的实际工作技能。电商平台变化非常快,制度规则几乎每天都有更新,而教学中使用的教材往往具有延时性,使得教学内容严重滞后。所以要对教学内容进行重新加工,可以进行教材的开发和教学资源库建设,获取最新动态,防止教学内容和行业发展脱节。

(1)在异常用电量识别方面,田力、向敏提出1种基于密度聚类技术的电力系统用电量异常分析算法[1]

(2)在用电量的影响因素分析方面,有学者提出产业结构升级对用电的影响问题,分析了用电量与三大产业之间的关联关系[2]。有的学者从产业结构调整、节能减排等政策方面提出1种基于改进灰色关联度的电力负荷影响因素量化分析模型[3]。也有学者基于格氏因果关系及误差修正模型,对10个主要工业部门用电量与GDP增长的双向关系进行了初步分析,发掘了它们之间的互为影响关系[4]

(3)在用电量预测方面,有学者对原始用电量数据进行平滑预处理,并考虑了影响园区用电量的主要因素,将其进行模糊化处理,借助分段模糊拟合预测方法进行拟合预测[5]。有些学者对比了工作日、休息日、固定假日和非固定假日用电量的差异,针对不同情况获得了虚拟化变量的系数,在此基础上建立了短期用电量预测模型[5]

尽管已经存在各类用电量分析文献,但是这些文献在分析用电量的时候很少考虑空间要素,而区域之间的空间关系会影响到用电行业的用电情况。分析不同用电行业在不同区域之间分布呈现的聚集或离散情况,能够对配电企业在安排用电时起到辅助决策作用。

1.2 本文的研究方法

一个区域的用电情况并非是单一行业决定的,决定区域经济发展的用电行业是多种多样的,基本构成的八大用电行业(代码)分别是:

(1)农、林、牧、渔业(A000);

从服务评价效果来看,产出不足的主要有3家机构,分别是机构10、机构1、机构15,且机构10产出不足率高达62%。可以通过提高老人的满意度和安全管理两方面的效果提高其产出。

(2)工业(GG00);

(3)建筑业(E000);

(4)交通运输、仓储和邮政业(F000);

常用的多变量聚类算法可以归纳为分割聚类方法、层次聚类方法、基于密度的聚类方法和基于网格的聚类方法,其中最流行和常用的聚类方法是k-means聚类[6-10]。为了考虑属性的空间关系,聚类算法将空间因素纳入到这些传统聚类算法之中[11]。本研究创新地提出了1种非空间—空间组合在一起的多元聚类方法,该方法通过将Getis-Ord Gi*统计和k-means多元聚类方法结合在一起,分析用电行业数据在区域空间中的集聚情况,探测多种用电行业作用下各个城市用电的冷、热点情况。

(6)商业、住宿和餐饮业(H000);

3种方式生成的空间权重矩阵均为0~1矩阵,本研究选择rook模式。因为舟山在地图呈现中与其他各个城市没有共同边界,因此其单元的邻居数为0,这样会出现舟山的行权重无法参与到空间计算的情况,导致计算错误。本文的解决方法是将宁波分配给舟山作为邻居,同时宁波的邻居数中同样对称性地增加了舟山。

(3)确定最优主题数。k均值聚类的目标是最小化每一个类内部的差异,最大化类之间的差异。由于聚类采用的是无监督方法,聚类最优数目需要提前确定。聚类最优数目确定有多种手段,如KL方法、Scott方法、Marriot方法、Ball方法、silhouette方法,Gap方法等。轮廓线系数(silhouette coefficient)表达了所聚类的内部要素是紧密联系的,而该类之外的元素与其内部元素是分离的观念,与k均值聚类特别契合而且表现稳定[17]。因此本次聚类采用silhouette方法来完成最优聚类数目的寻找。轮廓线系数s(i)的计算公式如式(4):

大丫每次吃大豆腐之前,一准儿要躲在水房的墙角那儿很响地撒一泼尿。这时候,老K总要阴下脸说,这个骚货非把那个墙基冲塌了不可!

这些用电行业的共同作用决定着所在区域的经济发展状况。这些区域在多种用电行业作用下是否呈现集聚效应,哪些区域属于用电热点区域或冷点区域,均需要进行测度。本研究以浙江省的八大用电行业为研究对象,将传统的多变量同这些变量的空间测度结合起来,自动聚类那些既具有多变量属性又涉及连续性空间单元的用电行业,识别出用电行业区域内的热点区域与冷点区域。

(5)信息传输、计算机服务和软件业(G000);

2 数据选择及权重设定

数据来源于浙江省上述8大行业用电数据,分布在浙江省的11个地区。为了进行空间探测,需要构建空间权重矩阵,进行空间数据分析的1个重要环节是生成空间权重文件,选取空间计量软件Geo⁃Da进行权重的设计。根据判断邻居关系规则的不同,GeoDa中主要有3种产生空间权重的方式:

(1)有公共边界或顶点即为相邻的queen和rook权重设置;

(1)给定1个空间权重W,设为每个变量计算标准的局部Getis-Ord统计指数。通过公式(2)计算第i个单元(i=1,…,n)中第j个变量(j=1,…,p)的值z((xi))。将这些值组合成(n×p)维度的矩阵Z,其中Z的每个列代表其中1个变量的局部空间自相关模式,Z的每一行描述了每1个局部单元的聚类属性构成。

(3)将距离最近的k个单元设为相邻的权重设置。

(7)金融、房地产、商务及居民服务业(J000);

2004年 国务院发出《关于进一步加强食品安全工作的决定》,将食品安全工作提高到了前所未有的高度,对加强全国食品安全工作做出重大决策和部署。

3 基于局部指数Gi*的多变量非空间—空间组合聚类方法

3.1 多变量空间聚类的研究框架

为了检测多种用电行业的空间集聚情况,需要考察每个用电行业的空间依赖。空间依赖的测度一般有2种方式,即全局空间相关性测度及局部空间相关性测度。

全局空间相关性测度强调的是整个区域的均值空间依赖。如果潜在的空间过程不稳定,则全局测度可能不具有代表性;局部空间相关性测度旨在识别研究区域内的每个变量值的空间依赖模式,其满足2个条件:

(1)为变量的每个位置标示重要的空间聚类内容;

(2)局部统计的总数与全局空间相关指数成正比。

局部空间统计经常使用的方法统计、局部moran指数,在空间集聚探测方面统计要优于局部moran指数。原因是局部moran指数只对统计有效性检验的数据点有效,而统计可以针对所有的数据点进行分析[11],使多变量的数据转换为多变量的空间数据成为可能。为了实现不同行业用电量的多变量空间聚类,需要将每1个多变量转换为具有空间特征的变量,而这个转换工作恰好可以通过统计来完成。转换完毕后形成多变量空间矩阵,就可以采用k-means来完成聚类。聚类时通过轮廓线系数方法确定最优聚类数。

为了比较多变量空间聚类和普通聚类的优劣,通过拟合优度方法对两者进行了比较,并对两种方法产生的结果进行地图可视化。研究方案框架见图1。

 

3.2 局部指数Gi*

Getis和Ord提出2种局部计算指标(Gi),统计中要素j中包含i,而Gi统计要素中j中不包含i[12-14]。由于要探测每1个变量的空间聚集程度,所以选择比较合适,计算如公式(1):

 

表1比较了未考虑空间要素的多变量k-means聚类和考虑了空间要素的多变量聚类的情况,发现在考虑空间要素时,各个类别用电量观察值的GVF都有所提升,说明空间聚类较好地改善了非空间聚类。

德瑞那和列瓦诺以及德拉木尔,三者有着一个共同点,就是灵魂被金钱所腐蚀,可谓是利欲熏心,在贵族和教会二者的黑暗统治下,大众群体日渐冷漠起来,没有亲情和人情可言,均以赚钱为生活目的,这些要素均在作品中被展现出来。司汤达作品中所描绘的情节与现实世界相似,作者本人也都经历过这些种种事件,大众将钱财视为核心,逐渐失去了梦想和灵魂,被金钱蒙蔽双眼,作者的诉求就是推翻黑暗统治,还给人民一片湛蓝的天空。

 

后续计算以z(Gi*)统计为主。对于具有显著统计学意义的正的z得分来说,z得分越高,高值(热点)的聚类就越紧密;对于具有显著统计学意义的负z得分,z得分越低,低值(冷点)的聚类就越紧密。

3.3 非空间—空间组合数据聚类

3.3.1 聚类结果

这里利用d、b两向量分别表示陀螺观测量和加速度计观测量fB,并认为模型是有色噪声,常表示成一阶高斯马尔科夫过程。Wd、Wb为白噪声向量。可用成型滤波器表示模型状态方程[6]

依照图1的框架逻辑,需要将标准化的加入到多变量的属性数据中,构造新的n×p列联表结构,然后对这个列联表采用k-means来聚类,寻找其最优的聚类数,聚类过程如下:

3.2 化学防治措施 苹果树发芽前喷3波美度石硫合剂,开花前喷0.5波美度石硫合剂或50%硫黄胶悬剂150倍液。

(2)在一定距离阈值范围内相邻的权重设置;

(2)将k均值聚类算法应用于这组空间结构化的变量矩阵Z。k均值聚类是将1组数据划分为预先设定好的k个簇,簇的质心是k均值聚类的关键。基本思想是利用迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。对于选择好k个质心后,接着将数据中的每个点与距离其最近的质心联系起来,如果已无数据点与质心相连,则第1步结束;然后将第1步生成的围绕质心的样本点求均值后作为新的质心,再计算与其最近样本点的聚集情况,以此类推迭代,直到质心点不再发生变动为止。对于所有k个聚类的模式遵循准则函数J的值为最小的原则,从而计算出k个聚类的质心点。见公式(3):

 

其中表示第 j个聚类集,聚类质心为Cj,Nj为第j个聚类集Sj中包含的样本数。

(8)公共事业及管理组织(M000)。

 

其中,a(i)为实体i与和它属于同一个聚类中其他实体的平均距离,b(i)是实体i与其他聚类中所有实体平均距离的最小值。轮廓线系数的取值-1~1,值越大表示聚类效果越好,最大值对应的聚类数目即为最佳聚类数目[7]。如果某实体的轮廓线系数为0,则表明该实体可能已经被分配到了其他类别中;如果轮廓线系数接近于-1,则意味着这个实体被错误分类了。如果所有的轮廓线系数都接近于1,那么意味着全部实体都得到很好地聚类。为了避免局部最优解,令聚类数目k取值2—8,在每个k值上重复运行30次k-means,并计算当前k的平均轮廓线系数,最后选取轮廓线系数最大的值对应的k作为最终的聚类数目。使用轮廓线系数对k-means处理的多变量空间矩阵进行聚类最优数量寻找。计算结果见图2。

(4)方差拟合优度(GVF)测度及热点冷点检测。为了比较非空间—空间结合的k-means聚类和非空间聚类的优劣,选择k=3聚类数目分别对带空间依赖的8个用电行业和不带空间依赖的8个用电行业进行k-means聚类。为了评测空间聚类方法的有效性,遵循聚类内部要素应越具相似性且聚类之间应越具差异性的原则,选择方差拟合优度(GVF)来测度它的有效性,并将其与非空间的k-means聚类进行比较。方差拟合优度是评价聚类精度的有效方法[18],见公式(5):

我倒不怕什么土尘,但我的周身现在被它们裹着,我就不是我了。我彻底成了一个黑土块了。也许他们还可以把我当成是一块煤矸石或者碳。

  

图2 轮廓系数确定最优主题数

 

其中,z(ji=1,...,N,N为区域总数目,就当前研究内容来说指国内31个省市自治区)为观察值,k为聚类数目,zˉj是聚类 j中的观察值的均值,Nj是聚类 j中的区域数目。反映了聚类之间的差异性,反映了聚类内部要素的相似性。GVF越接近于1说明聚类内容越相近。

其中,xj是要素j的属性值,wi,j(d)是要素 i和j之间的空间权重,是空间权重矩阵W的n×p元素,n为要素总数。矩阵W从xi和xj之间的门槛距离d导出[15]。门槛距离d的定义规则为:凡是在这个距离范围内的元素都被称作为邻居,且在矩阵W中这些要素间权重取值为1,不在这个距离范围内的要素在矩阵W中取值为0。为了计算的统一,将相邻规则形成的空间权重转换为距离权重参与测度,测度计算的是以第i个位置为中心,其值等于其邻居的值与空间权重的乘积之和,与所有数据值总和的比值。为了提高统计检验精度,Ord和Getis发展了1种将做最小化估计的z转换形式,见公式(2):

在生产过程中,胶州大白菜通过优化种植环境、精炼种植技术、病虫害控制治理和强化质量检测,以进行规范化和标准化生产与管理。同时,协会注重胶州大白菜品种的技术创新与研发,推进胶州大白菜产业升级换代。

 

表1 非空间聚类与空间聚类的GVF比较

  

用电量行业代号A 0 0 0 A A A A E 0 0 0 F 0 0 0 G G 0 0 H 0 0 0 J 0 0 0 M 0 0 0非空间多变量k-m e a n s聚类0.5 0 7 0 4 9 5 0.7 4 2 5 0 0 2 0.4 5 0 2 4 1 3 0.6 5 9 5 6 6 1 0.6 4 7 6 1 6 6 0.6 6 2 1 8 5 4 0.5 6 6 9 2 0 6 0.5 1 9 3 9 8 9非空间—空间多变量k-m e a n s聚类0.8 1 7 2 1 3 4 0.8 8 6 3 2 1 60.8 5 9 7 2 8 0.8 0 3 9 2 9 5 0.8 4 5 1 2 0 2 0.9 2 5 1 2 2 6 0.8 9 6 9 2 0 5 0.9 1 5 2 5 9 7

多变量非空间k-means的聚类结果和多变量非空间—空间k-means聚类结果见图3所示。从地图效果上看,右侧的多变量非空间—空间结合的kmeans聚类明显比左侧的多变量非空间k-means聚类有规则,聚类效果更好,这一点在方差拟合优度中也得到了说明。说明论文所提供的多变量非空间—空间聚类方法可行。

11月27日8版《音乐1927年叙事》,其“它几乎奠定了中国近现代音乐发展的根本性基础和所有原动力”,有恙;奠定了动力,此话不通。用“……音乐发展的基础并提供了原动力”为宜。

  

图3 两种k-means的聚类比较

由于局部指数能够对聚类变量进行热点、冷点探测,因此可以将其应用于观察多变量空间聚类的热点监测情况,从而判高值聚类与低值聚类。参照单变量统计的要求,观察各变量在不同聚类中的Z得分情况,选取每个空间聚类中的Z得分均值来判断多变量空间聚类的热点、冷点以及无空间相关性的分布。Z均值大于1.65的为高值聚类且为热点聚类,介于1.2~1.65的为一般程度的高质聚类,介于-1.65~1.65的则无空间相关性(空间分布呈现随机性),而小于-1.65的为低值聚类且为冷点聚类。

数字地形测图以其独特的特点和优势,在各领域中都得到了广泛的应用。数字地形测图的鲜明优势,主要是以传统白纸测图相比较而言的。在技术创新和发展中,全数字地形测图体现是技术本质性的飞跃。优势特点体现为2个方面:(1)充分打破了分级布网的原则[2]。利用数字地形测图,能够一个区域完成一次性布网,控制网的控制点数目减少,且明显少于传统的白纸测图数量。(2)创新碎部点坐标方法。碎部点的记录通常有比较统一的格式,利用数字地形测图识别此种特定格式后,可以将其与数据库连接。同时,借助碎部点坐标,灵活地采用其余诸如交会法、直角偏距法等,实现对测区的无码作业。

从图3(b)可知,绍兴、嘉兴、湖州属于第一聚类,查找其Z得分的均值为2.281 107 4;衢州、金华、宁波、杭州、台州属于第二聚类,查找其Z得分的均值为1.225 094 4;温州、丽水、舟山属于第三聚类,查找其Z得分的均值为-0.920 843 5。根据Z得分情况说明绍兴、嘉兴、湖州属于热点区域,这3个区域的经济发展迅猛,八大行业的用电量在这几个城市呈现需求增长趋势。而衢州、金华、宁波、杭州、台州属于一般热点聚类。由于温州、丽水、舟山的Z得分均值为-0.920 843 5,可能属于随机分布状态,这说明了八大行业在这几个城市的发展并不均衡,有些产业的发展比较迅猛,有些产业的发展则比较迟缓。

3.3.2 结论

本文将空间统计与k-means相结合进行用电量的区域集聚研究,是空间多变量聚类的尝试性研究,尚有一些问题有待进一步讨论。

(1)在做空间组合的多元聚类过程中,由于要将每个变量的具体值都转换为带有空间关系的变量形式,利用全局空间moran指数是不合适的(因其处理的内容是变量的均值效应)。局部Geary C和局部moran′s I也不合适,一方面它们对通过统计检验的变量值检查准确,而对未经过统计检验的变量值则表现一般;另一方面它们没有考虑待分析变量的特征值,只处理该变量的邻居值,这就造成了k均值聚类中数据的缺失。而统计既能考虑邻居值也能考虑自身值,因此适合发现区域的同质性聚类效应。由于*统计可以为每个数据点做空间统计转化,擅长分析空间数据的热点趋势,因此在做k均值聚类时,引入统计转化数据更合适。

(2)传统的k-means聚类根据数据距离测度(本论文选择欧式距离)完成类属划分,对聚类中的高值聚类与低值聚类无法做出区分。而空间多元聚类方法由于加入了统计因素,能够观察各变量在不同聚类中的Z得分情况,进而通过Z得分均值来判断多变量空间聚类的热点、冷点以及无空间相关性的分布情况,从而使得产生的聚类结果更具指导性。

(1)理论教学合计114学分:包括通识必修课42学分,学科基础课28.5学分,专业必修课13.5,专业方向课18学分,通识选修课12学分。

(3)空间—非空间组合方法为用电量区域集聚分析提供了1种尝试,但这种方法是基于截面数据的。如何通过面板数据扑捉用电量热点、冷点随时间的演变过程,观察区域之间在生产和生活用电方面的接近程度,以便于帮助配电企业和政府对相近的区域进行政策指导,这些问题需要继续开展研究工作。

4 结语

城市用电并不局限于某1个行业,往往是多个行业同时并存,本文讨论的这些行业在不同的城市基本都存在。传统的k-means聚类没有考虑到不同城市之间因为空间关系导致的依赖效应,因此在城市用电聚类方面精确度不高。当在城市之间引入空间依赖后,不仅城市用电的聚类效果得到很大提升,而且能够测度出哪些城市属于热点、冷点聚类,可为用电企业对这些城市的配电管理提供科学依据。通过比较不同城市在用电方面的相似程度和用电量聚集情况,可以帮助配电企业根据城市用电热点和冷点来进行用电供给,实现资源的最佳配置,提升城市的经济发展水平。

通过应用热氮吹硫新工艺,吹硫、钝化交叉进行,在钝化后期使克劳斯尾气直接进入尾气焚烧炉,区别于常规热氮吹硫工艺,钝化后期三级硫冷凝器出口过程气切入急冷塔,经碱液吸收后,再切入尾气焚烧炉,钝化过程将持续消耗碱液,产生废水。本次热氮吹硫作业未消耗碱液、未产生废水,排放烟气中SO2质量浓度满足环保控制指标要求,完成了克劳斯系统停工吹硫作业。停工后,重点设备开盖检查,容器内无固体硫磺,未发生自燃现象。装置开工后,克劳斯系统和加氢系统均运行平稳,各反应器床层温度分布均匀,排放烟气中SO2质量浓度约250 mg/m3。

参考文献:

[1]田力,向敏.基于密度聚类技术的电力系统用电量异常分析算法[J].电力系统自动化,2017,41(5):64-70.

[2]杨方圆,史宇超,侯玉琤.考虑产业结构调整的用电量指标关联分析及负荷预测[J].电气技术,2017,18(5):19-23.

[3]王雁凌,吴梦凯,周子青,等.基于改进灰色关联度的电力负荷影响因素量化分析模型[J].电网技术,2017,41(6):1772-1778.

[4]何永秀,赵四化,李莹,等.中国工业用电量与经济增长的关系研究[J].工业技术经济,2006,25(1):78-82.

[5]刘晓娟,龚毅豪.基于分段模糊拟合方法的用电量预测研究[J].上海电力学院学报,2017,33(2):206-209.

[6]李凯,赵滨滨,曹占峰,等.基于回归分析和虚拟变量的短期用电量预测管理模型[J].电气应用,2017(2):59-65.

[7]朱连江,马炳先,赵学泉.基于轮廓系数的聚类有效性分析[J].计算机应用,2010(S2):139-141.

[8]张松林,张昆.局部空间自相关指标对比研究[J].统计研究,2007,24(7):65-67.

[9]Jain,A K.Data clustering:50 years beyond k-means,European[J].Pattern Recognition Letters,2010,31(8):651-666.

[10]Theodoridis S,Pikrakis A,Koutroumbas K,et al.Introduction to Pattern Recognition[M].Amsterdam:Academic Press,2010.

[11]Cressie N,Wikle C K.Statistics for Spatio-temporal Data[M].New Jersey:John Willey&Sons Inc.,2011.

[12]Lloyd C D.Spatial Data Analysis[M].New York:Oxford University Press Inc.,2010.

[13]Córdoba M,Bruno C,Costa J,et al.Subfield manage ment class delineation using cluster analysis from spatial principal components of soil variables[J].Comput Electron Agric,2013(97):6-14.

[14]Getis A,Ord J K.The analysis of spatial association by use of distance statistics[J].Geogr Anal,1992,24(3):189-206.

[15]Ord J K,Getis A.Local spatial autocorrelation statistics:distributional issues and an application[J].Geogr Anal,1995,27(4):286-306.

[16]Mitchell A.The ESRI guide to GIS analysis in Spatial Measurements&Statistics[M].Redlands:ESRI Press,2005.

[17]M Charrad,A Niknafs,N Ghazzali,et al.NbClust:An R Package for Determining the Relevant Number of Clusters in a Data Set[J].Journal of Statistical Software,2014,61(6):30-36.

[18]Armstrong P,Ningchuan X,David A.Bennett.Using Genetic Algorithms to Create Multicriteria Class Intervals for Choropleth Maps[J].Annals of the Association of American Geographers,2003,93(3):595-623.

 
王伟峰,钮亮,刘颖,余允涛,麻吕斌
《内蒙古电力技术》 2018年第01期
《内蒙古电力技术》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号