快捷分类

电网数据存储技术选型的研究

更新时间：2016-07-05

1 引言

国网辽宁省电力有限公司全业务统一数据中心数据分析域非结构化数据接入方面涉及非结构化数据管理平台中电子文件管理系统、档案系统、电网GIS地理空间信息系统、营销业务系统、安监系统、PMS2.0、协同办公系统、电力交易系统、ERP、计量生产调度平台、营销GIS、基建管理信息系统等 34个业务系统接入非结构化数据管理平台的非结构化数据。综合考虑，主要通过测试80 GB文件的写入、读取场景过程中分布式文件系统性能各种指标的不同数量大小，如节点数量的大小、备份因子的大小、数据块的大小，对国网公司大数据平台分布式文件系统（基于HDFS优化封装）的读写性能进行测试。

2 非结构化数据存储

2.1 节点数量对读写性能的影响

下面以测试节点数量对分布式文件系统读写性能的影响作为用例来说明。为保障测试结果的准确性，所有的测试节点的物理配置需保持一致，且在一个分布式集群下，数据块大小统一默认为128 MB，其他参数都保持一致。在统一的测试环境下，实施测试操作：跨节点远程写入和读取80 GB文件，分别记录耗时；分别在不同工作节点上本地写入和读取80 GB文件，分别记录耗时；重复以上步骤，分别测试2个、3个DataNode的HDFS集群环境，跨节点远程写入文件、节点本地写入文件耗时，测试结果如下所示。

（1）1个DataNode的HDFS集群

1个DataNode的HDFS集群的测试结果见表1。

（2）2个DataNode的HDFS集群

2个DataNode的HDFS集群的测试结果见表2。

（3）3个DataNode的HDFS集群

3个DataNode的HDFS集群的测试结果见表3。

大数据平台分布式列式数据库基于 Hadoop HBase优化封装，HBase是基于Hadoop的NoSQL数据库，能够为大数据提供实时的读/写操作，能够利用 HDFS的分布式处理模式，并通过MapReduce获取强大的离线处理或批量处理能力，同时能够融合key/value存储模式，以实现实时查询能力。HBase是一个分布式、可扩展、面向列的数据库，因此可部署在廉价的PC服务器集群上处理大规模的海量数据。

表1 1个DataNode的HDFS集群的测试结果

pagenumber_ebook=189,pagenumber_book=184

节点名称节点数据客户端类型时间加载等待输入/输出操作进程占比网络输入/MB 网络输出/MB BG8S02 BG8S01 BG8S02 写 15 min 27 s 3.2% 43% 22 3.9 BG8S02 BG8S01 BG8S01 写 2 min 20 s 3.3% 76% 93 1.6 BG8S02 BG8S01 BG8S02 读 15 min 37 s 3.4% 42% 2.5 29 BG8S02 BG8S01 BG8S01 读 1 min 53 s 3.3% 81% 1.2 96

表2 2个DataNode的HDFS集群的测试结果

节点名称节点数据客户端类型时间加载等待输入/输出操作进程占比网络输入/MB 网络输出/MB BG8S02 BG8S01BG8S03 BG8S02 写 15 min 49 s 3.1% 26% 22 2.3 BG8S02 BG8S01 BG8S03 BG8S01 写 4 min 2.6% 39% 37 2.6 BG8S02 BG8S01 BG8S03 BG8S03 写 2 min 22 s 3.3% 42% 51 3.1 BG8S02 BG8S01 BG8S03 BG8S02 读 15 min 33 s 3.9% 23% 2.8 32 BG8S02 BG8S01 BG8S03 BG8S01 读 8 min 56 s 2.9% 32% 3.9 36 BG8S02 BG8S01 BG8S03 BG8S03 读 13 min 3 s 1.8% 26% 4.2 57

表3 3个DataNode的HDFS集群的测试结果

网络输入/MB节点名称节点数据客户端类型时间加载等待输入/输出操作进程占比网络输出/MB BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 写 15 min 49 s 3.2% 17% 29 2.9 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 写 4 min 18 s 3.5% 28% 32 2.5 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 写 2 min 54 s 3.6% 36% 26 3.6 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 写 2 min 50 s 2.8% 36% 43 3.1 BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 读 15 min 44 s 2.1% 16% 4.2 30 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 读 13 min 21 s 3.5% 25% 3.9 35 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 读 10 min 30 s 3.9% 22% 2.8 37 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 读 15 min 20 s 3.4% 18% 3.2 31

2.2 备份因子数对读写性能的影响

下面以测试备份因子数对分布式文件系统读写性能的影响作为用例来说明。为保障测试结果的准确性，所有的测试节点的物理配置需保持一致，节点数量为3。在统一的测试环境下，实施测试操作：设置备份因子数为1，跨节点远程写入和读取80 GB文件，分别记录耗时；分别在不同工作节点上本地写入和读取80 GB文件，分别记录耗时；重复以上步骤，分别测试备份因子为2、3的HDFS集群环境中跨节点远程读写文件、节点本地读写文件耗时，测试结果如下所示。

列名、列族名的长度影响HBase的读写性能，长度越长则性能越差。

备份因子为 1～3情况下的写性能测试结果见表4。

（2）备份因子为1～3下的读性能测试

不同长度的rowkey 写HBase性能测试结果如图6所示。

备份因子的改变不影响客户端的读写性能，客户端的 I/O瓶颈依然是交换机的传输速率。备份因子数增加时，客户端写的时间有小幅度的增加，这是因为要把同一个块写到不同的机器上，增加了写的开销。备份因子的增加使本地写文件性能下降，本地读文件性能提高。

表4 备份因子为1～3情况下的写性能测试结果

pagenumber_ebook=190,pagenumber_book=185

节点名称节点数据客户端响应时间加载等待输入/输出操作进程占比网络输入/MB网络输出/MB BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 1 15 min 49 s 2.9% 16% 29 3.5 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 1 4 min 18 s 3.6% 25% 38 4.2 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 1 2 min 54 s 3.1% 31% 45 3.8 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 1 2 min 50 s 2.8% 32% 45 2.9 BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 2 16 min 54 s 2.9% 14% 31 3.1 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 2 17 min 1 s 3.6% 14% 30 3.6 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 2 17 min 9 s 3.4% 14% 30 3.2 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 2 16 min 46 s 3.6% 15% 31 3.4 BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 3 17 min 45 s 3.5% 14% 29 4.5 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 3 19 min 6 s 3.2% 13% 25 4.2 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 3 19 min 10 s 3.7% 13% 25 3.1 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 3 19 min 51 s 3.9% 13% 25 2.9

表5 备份因子为1～3情况下的读性能测试结果

节点名称节点数据客户端响应时间加载等待输入/输出操作进程占比网络输入/MB网络输出/MB BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 1 15 min 22 s 3.2% 14% 4.2 30 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 1 13 min 21 s 2.6% 16% 4.7 31 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 1 10 min 30 s 2.9% 18% 4.8 33 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 1 15 min 20 s 3.5% 14% 3.9 30 BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 2 15 min 22 s 2.9% 14% 3.8 30 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 2 11 min 42 s 2.8% 17% 4.4 32 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 2 7 min 2 s 2.5% 21% 3.7 39 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 2 9 min 16 s 2.9% 19% 3.1 41 BG8S02 BG8S01 BG8S03 BG8S04 BG8S02 3 15 min 35 s 3.5% 14% 3.9 30 BG8S02 BG8S01 BG8S03 BG8S04 BG8S01 3 3 min 42 s 3.6% 25% 3.8 56 BG8S02 BG8S01 BG8S03 BG8S04 BG8S03 3 2 min 29 s 3.4% 26% 4.1 59 BG8S02 BG8S01 BG8S03 BG8S04 BG8S04 3 2 min 5 s 2.9% 26% 3.7 59

2.3 数据块大小对写入性能的影响

下面以测试数据块的大小对分布式文件系统读写性能的影响作为用例来说明。为保障测试结果的准确性，同上一项测试设置相同，节点数量为3个，备份数为3。在统一的测试环境下，实施测试操作：设置设置块大小为4 MB，跨节点远程写入80 GB文件，记录耗时；重复以上步骤，分别测试备份因子为4 MB、8 MB、16 MB、32 MB、64 MB、128 MB、256 MB、512 MB、1 024 MB时的HDFS集群环境，跨节点远程读写文件、节点本地读写文件耗时，测试结果如下所示。

经测试，当数据块逐渐增大，写入时间在总体上是一个递减的趋势，但当块增大到一定程度之后，写入时间趋于平稳，即数据块的增大只能在一定的范围内影响HDFS的读写性能，如果把数据块的大小设置为更大的，那对性能的影响就微乎其微。

针对我国农村地区的生活污水特质，相关学生将生物转盘划分成三个不同级别，并对生活污水进行分级处理，最后让污水滤过水生植物床进而实现污水处理效果。这种技术能够消除生活污水表面的大部分污染物，而且在氮磷物质的处理上也有着较好效果。

分布式文件系统功能方面主要需测试分布式文件系统的负载均衡、节点动态拓展。

式（1）中：右侧第一项为在R内的面积分；右侧第二项为沿C的线积分；G（T）为温度场函数；F为温度场各梯度对应的函数。可见，泛函由温度场梯度决定。

张桂芳说，你这是撩蜂蜇自己的眼，今天就撇开“扒灰”说你们村的棉花。当年，你们村的棉花就只长蔸子不结桃子，棉花田里是屁股大的叶子，卵子大的桃子，鸡巴长的虫子，那能高产吗？这些人都不是省油的灯。

2.4 负载均衡

下面以测试分布式文件系统负载均衡的功能作为用例来说明。为保障测试结果的准确性，测试节点在1个分布式集群下，集群上已有一定数据存储负载，测试新添节点后执行负载均衡。在统一的测试环境下，实施测试操作：搭建一个2个节点的 HDFS统集群；写入一定量数据，查看HDFS监控页面，查看并记录每个节点中块的数量；集群新添加一个节点，执行负载均衡命令，过20 min后，查看每个节点中块的数量；多次执行负载均衡，过20 min后，查看每个节点块的数量测试结果如下所示。

（1）新增测试节点前每个节点中块的数量情况

搭建的两个节点：BG8S01和BG8S03，新增测试节点前每个节点中块的数量分别为458和457。

公路工程项目施工周期长、涉及范围广、资金回笼慢，施工工种众多，这无形中增加了公路工程全过程造价管理难度。PPP模式下，私人投资者最为关注的是投资收益，对投资估算的要求更加精确，所以，建设方案既要适应宏观政策，更要让私人投资者满意于项目风险的控制。PPP模式下公路工程施工成本如果根据定额等标准计算，则会高出常规的施工成本[2]，因为定额中并不包含新工艺、新技术等成本。

（2）新增节点后，执行负载均衡每个节点中块的数量情况

新增节点后，执行负载均衡每个节点中块的数量情况如图1所示。

pagenumber_ebook=191,pagenumber_book=186

图1 执行负载均衡每个节点中块的数量情况

负载均衡的目的虽然是平衡数据，但它并不追求毕其功于一役，而是事先设定目标，每一次执行只实现预设目标，即只是缩小了过载/负载节点与集群平均使用率的差值，而通过反复多次的执行使集群内的数据逐渐趋于均衡。可见，分布式文件系统能通过搭建分布式节点实现系统的负载均衡。

2.5 节点动态拓展

分布式文件系统具备良好的扩展性，能够动态增加节点，并能保持数据的分布均衡和存储空间的扩容。

3 实时数据存储

集群的规模增大，在DataNode上读取数据的性能优势将越来越小，因为数据块分布越来越稀疏，在一个数据节点上能够取得的数据块越来越少，需要通过网络进行传输的数据越来越多。另外，随着集群规模的增大，客户端读写的速率有递减的趋势。

3.1 节点数量对读写性能的影响

下面以测试节点数量对HBase读写性能的影响作为用例来说明。为保障测试结果的准确性，节点的物理配置一致，测试节点在同一个分布式集群下；HBase配置参数均为默认值。在统一的测试环境下，实施测试操作：写入1 000万条数据，其中，每条数据300 byte；rowkey为散列值，长度为12；列族下有3个字段，字段名分别为TN、MP、TO。完成写入后，计算写入总时间；对上述表进行读取性能测试，测试指定rowkey方式单次读取的速率；重复上述步骤，分别测试在2、3个工作节点的 HBase分布式集群环境下的读写性能，测试结果如下所示。

表6 HBase写入数据测试结果

pagenumber_ebook=192,pagenumber_book=187

测试工作节点数/个总数据量/万总费时/s 平均总速率/(万·s-1) 加载等待输入/输出操作进程占比1 1 1 000 454.5 2.2 3.9% 1.7%2 2 1 000 238 4.2 3.8% 1.5%3 3 1 000 153.8 6.5 3.6% 1.4%

（1）HBase写入数据测试

传统媒体的样本中，除去“官方言论”部分，“政策观点”主题类别下有83篇表现出明显的政策偏好。通过图3的分析发现，整体来看，建议和要求政策进行调整的声音占据相当的话语优势，仅在2007年相对弱化；分年份来看，2009年要求政策调整的呼声凸显，2013年、2015年尤其突出。

HBase写入数据测试结果见表6。

（2）HBase读取数据测试

“毕业之后考研，考研之后找工作。然后就再也没有暑假寒假。上了大学就没了家乡的春秋，这下连冬夏都不剩了。”

HBase读取数据测试结果如图2所示。

采用SPSS 18.0统计学软件对数据进行处理，计量资料以“±s”表示，采用t检验，计数资料以百分数（%）表示，采用x2检验，以P＜0.05为差异有统计学意义。

图2 HBase读取数据测试结果

（1）HBase 列名及列族名长度不同写入测试

3.2 列族数量对读写性能的影响

下面以测试列族数量对HBase读写性能的影响作为用例来说明。为保障测试结果的准确性，节点的物理配置一致，测试节点在同一个分布式集群下；HBase配置参数均为默认值。在统一的测试环境下，实施测试操作如同上一项测试步骤，测试结果如下所示。

（1）HBase写入性能测试

HBase写入性能测试结果如图3所示。

图3 HBase写入性能测试结果

列族的数量影响写入的性能，数量越多则写入性能越差。在相同列族上的读取性能差别不大，如果跨列族读取，列族数量越多则读取性能越差。

3.3 列名及列族名长度对读写性能的影响

下面以测试列名及列族名长度对HBase读写性能的影响作为用例来说明。为保障测试结果的准确性，测试节点在 1个分布式集群下，HBase配置参数均为默认值。在统一的测试环境下，实施测试操作：搭建一个3个工作节点的HBase分布式集群环境；新建一张列族名长度为一个字符的HBase列族表，写入1 000万条数据，其中，每条数据300 byte；rowkey为散列值，长度为12；列族下有1个字段，字段名长度为1个字符。完成写入后，计算写入总时间；对上述表进行读取性能测试，测试指定rowkey方式单次读取的速率；重复上述步骤，分别测试在列族明长度为1，列名长度为2、3；以及列名长度为1，列族名长度为2、3的HBase分布式集群环境下的读写性能，测试结果如下所示。

随着集群的规模增大，HBase写入性能呈线性递增，单次rowkey读取的速率近似相等。

HBase 列名及列族名长度不同写入测试结果见表7。

（2）HBase 列名及列族名长度不同读取测试

HBase 列名及列族名长度不同读取测试结果见表8。

（4）备份因子为1～3情况下的写性能测试

3.4 rowkey结构对读写性能的影响

下面以测试rowkey组成结构对HBase读写性能的影响作为用例来说明。为保障测试结果的准确性，测试节点在1个分布式集群下，HBase配置参数均为默认值。在统一的测试环境下，实施测试操作：搭建一个3个工作节点的HBase分布式集群环境；新建一张只有一个列族，列族名长度为一个字符的HBase表；写入1 000万条数据，其中，每条数据300 byte；rowkey为流水号散列值，长度为12；列族下有1个字段，字段名长度为1个字符。完成写入后，计算写入总时间；对上述表进行读取性能测试，测试指定rowkey方式单次读取的速率；重复上述步骤，分别测试rowkey的结构为不散列时在HBase分布式集群环境下的读写性能，测试结果如下所示。

（1）不同结构的rowkey写HBase性能测试

不同结构的rowkey写HBase性能测试结果如图4所示。

pagenumber_ebook=193,pagenumber_book=188

图4 不同结构的rowkey写HBase性能测试结果

（2）不同结构的rowkey 读HBase性能测试

不同结构的rowkey读HBase性能测试结果如图5所示。

本项目旨在设计一种基于RFID和无线感知网络的茶叶防伪溯源系统，能够实现对茶叶生长环境和运输环境等的数据采集、分析、存储和共享。相较于传统的防伪溯源系统，本系统将记录从茶叶的生长一直消费者获取茶叶手上这整个过程的数据，消费者可以查看茶叶的生长过程的情况，不必担心是否有食品安全的问题。另外每份茶叶都有自己独有的“身份证”，这个“身份证”不会被破解。而假冒伪劣的茶叶不会拥有这个“身份证”，这样可以有效识别正品与山寨品。

图5 不同结构的rowkey读HBase性能测试结果

表7 HBase 列名及列族名长度不同写入测试结果

测试列族名长度列名长度平均总速率/(万·s-1) 加载等待输入/输出操作进程占比网络输入/MB 网络输出/MB 1 1 1 6.3 4.2% 1.6% 11.1 1.23 2 2 1 6.1 3.9% 1.4% 10.7 1.12 3 3 1 5.7 3.3% 1.9% 9.2 1.07 5 1 2 5.9 3.7% 1.1% 9.4 1.09 6 1 3 5.7 3.1% 1.1% 9.3 1.06

表8 HBase 列名及列族名长度不同读取测试结果

测试列族名长度列名长度平均总速率/(万·ms-1) 加载等待输入/输出操作进程占比网络输入/KB 网络输出/KB 1 1 1 0.2 2.4% 0.2% 1.3 1.6 2 2 1 0.26 1.9% 0.3% 1.2 2.3 3 3 1 0.33 2.6% 0.5% 1.1 2.2 4 1 1 0.2 1.7% 0.4% 1.7 1.9 5 1 2 0.25 2.9% 0.3% 2.5 2.8 6 1 3 0.36 2.6% 0.5% 1.8 1.7

4月14日青海玉树地震发生后，水利部部长陈雷迅速作出安排部署，要求认真贯彻落实胡锦涛总书记、温家宝总理、回良玉副总理重要指示精神，立即组成工作组赶赴灾区，会同青海省水利部门迅速查清震损水利工程情况，及时采取措施，排除险情，抓紧做好排险避险预案，切实防范地震次生灾害，确保震损水利工程安全度汛。

3.5 rowkey长度对读写性能的影响

下面以测试rowkey长度对HBase读写性能的影响作为用例来说明。为保障测试结果的准确性，测试节点在1个分布式集群下，HBase配置参数均为默认值。在统一的测试环境下，实施测试操作同上一项测试步骤，重复上述步骤，分别测试在rowkey的长度为20、30在HBase分布式集群环境下的读写性能，测试结果如下所示。

rowkey结构设计得越离散，读写出吞吐量越高，速度越快。

（1）不同长度的rowkey 写HBase性能测试

3.注重突破节约资源和环境保护方面的技术瓶颈。加大投资力度，由政府直接引进或者制定政策扶持企业引进节能减排先进技术，如能源领域的节能减排、燃料电池、太阳能、风能、生物质能等新能源技术，如生活方面的节水和资源综合利用的技术，如建筑方面建筑节能、绿色照明、节能监测和技术服务体系建设等，积极引导支持企业和全社会提高能源资源利用效率，减少排放。根据东营本地的资源环境、产业体系、污染状况，有针对性地资助或者联合开发本地需求的节能环保技术。如针对石油石化、橡胶轮胎产业的能量梯级利用技术、区域热电联产、余热余压利用、废料回收利用等技术，如符合东营需要的盐碱地改造、耐盐植物选育推广等技术。

备份因子为 1～3情况下的读性能测试结果见表5。

pagenumber_ebook=194,pagenumber_book=189

图6 不同长度的rowkey写HBase性能测试结果

（2）不同长度的rowkey 读HBase性能测试

不同长度的rowkey 读HBase性能测试结果如图7所示。

图7 不同长度的rowkey读HBase性能测试结果

rowkey的长度影响存取的性能，长度越长则性能越差。

3.6 批量操作对读写性能的影响

下面以测试批量操作对HBase读写性能的影响作为用例来说明。为保障测试结果的准确性，测试节点在1个分布式集群下，HBase配置参数均为默认值。在统一的测试环境下，实施测试操作同上项测试步骤，对上述表进行读取性能测试，测试指定rowkey方式单次读取一条的速率，重复上述步骤，分别测试批量100条、1 000条、10 000条在HBase分布式集群环境下的读写性能，测试结果如下所示。

施工设计是关乎整个施工大局的环节，在施工设计中防渗漏设计尤为重要，如果设计不合理，施工材料质量再好，也无法避免渗水漏水问题，在施工设计中，有很多施工单位没有聘用专业的设计师或者设计师没有接受过专业性的技术指导，专业素质不过关，所以在进行设计时考虑不周到，导致防水设计在图纸上体现不周到，施工人员在施工时按照图纸上的粗略设计也进行粗略的施工，例如对窗户接缝处的防水设计经常会被设计师们忽略。或者是设计师在进行设计时，只注重美观而无法顾及防水设计，导致的结果都是防水施工不到位。

（1）不同批量操作数对HBase写性能的影响

不同批量操作数对HBase写性能的影响的测试结果见表9。

（2）不同批量操作数对HBase读性能的影响

不同批量操作数对HBase读性能的影响的测试结果见表10。

因着海兰抱病，今日并未去大殿行哭礼，青樱见她立在门外，便道：“这样夜了怎么还来？着了风寒更不好了，快进来罢。”

合适的批量数能够有效提升读写性能，并能达到一个最优效率。然后随着批量数的增大，性能逐步下降。

分布式列式数据库功能方面主要需测试分布式列式数据库的负载均衡、数据压缩功能。

3.7 负载均衡

下面以测试HBase在负载均衡方面的功能作为用例来说明。为保障测试结果的准确性，测试节点在1个分布式集群下，集群上已有一定数量的表（region数超过节点数），测试过程中新添加节点。在统一的测试环境下，实施测试操作：搭建一个2个工作节点的分布式文件系统集群，并观察region的数量及分布情况；集群新添加1个工作节点，等待5 min（balancer默认定期检查时间）查看region分布情况，同2个工作节点的情况比较，测试结果如下所示。

从知识、技能、态度三个维度KMO值分别为0.854、0.857、0.873，都大于0.8，表明在结构效度方面较好，研究数据可以用于进一步地分析。

表9 不同批量操作数对HBase写性能的影响的测试结果

测试批量操作数/个平均总速率/(万·s-1) 加载等待输入/输出操作进程占比网络输入/MB 网络输出1 1 6.6 2.4% 1.1% 11.7 698 KB 2 100 13.7 2.6% 1.4% 25.8 1.15 MB 3 1 000 15.2 2.3% 1.5% 29.9 1.38 MB 4 10 000 12.4 3.9% 1.8% 23.8 1.59 MB

表10 不同批量操作数对HBase读性能的影响的测试结果

pagenumber_ebook=195,pagenumber_book=190

测试批量操作数/个平均总速率/(万·ms-1) 加载等待输入/输出操作进程占比网络输入/KB 网络输出/KB 1 1 0.2 1.2% 0.5% 1.3 986 2 100 0.06 1.9% 0.1% 1.7 693 3 1 000 0.05 1.7% 0.1% 1.3 985 4 10 000 0.06 1.9% 0.1% 587 678

HBase负载均衡测试结果如图8所示。

图8 HBase负载均衡测试结果

HBase定期检查，并平衡各工作节点的region数量。

3.8 数据压缩

下面以测试HBase数据压缩的功能作为用例来说明。为保障测试结果的准确性，测试节点均在分布式集群下，两次写入数据的数据量大小一样。在统一的测试环境下，实施测试操作：搭建一个只有1个工作节点分布式文件系统集群；未开启数据压缩，新建HBase数据表，写入一定量的数据，查看集群的磁盘利用率；配置LZO数据压缩，将相应JAR文件放到HBase的lib文件夹下，新建HBase数据表并设置LZO数据压缩，清空集群数据，写入相同的数据，查看磁盘的利用率，测试结果如下所示。

数据压缩的测试结果见表11。

数据压缩功能能够有效地压缩数据大小，减少磁盘的空间使用。

3.9 节点动态扩展

下面以测试分布式文件系统的扩展性作为用例来说明。为保障测试结果的准确性，测试节点均在分布式集群下，两次写入数据的数据量大小一样。在统一的测试环境下，实施测试操作：搭建一个只有1个工作节点的HBase集群，观察HBase的region的数量及分布情况；集群新添加1个工作节点，等待5 min（balancer默认定期检查时间）查看region分布情况，同只有1个工作节点的情况比较；查看集群的可用空间，测试结果如下所示。

HBase动态扩展测试结果如图9所示。

图9 HBase动态扩展测试结果

HBase具备良好的扩展性，能够动态增加节点，并能保持region分布均衡和存储空间的扩容。

表11 数据压缩的测试结果

测试工作节点数/个表数量/个单表region数量/个压缩前数据大小/MB 压缩后数据大小/MB 压缩比1 1 1 50 361.2 216.8 39.975%

4 结束语

HBase具备良好的扩展性，能够动态增加节点，并能保持region分布均衡和存储空间的扩容。集群的规模增大，在DataNode上读取数据的性能优势将越来越小，因为数据块分布越来越稀疏，在一个数据节点上能够取得的数据块越来越少，需要通过网络进行传输的数据越来越多。另外，随着集群规模的增大，客户端读写的速率有递减的趋势。

参考文献：

[1]GEORGE L.HBase权威指南[M].代志远, 刘佳, 蒋杰, 译.北京：人民邮电出版社, 2013.GEORGE L.HBase： the definitive guide[M].Translated by DAI Z Y, LIU J, JIANG J.Beijing： Posts & Telecom Press, 2013.

[2]蔡斌, 陈湘萍.Hadoop技术内幕：深入解析Hadoop Common和 HDFS架构设计与实现原理[M].北京：机械工业出版社,2013.CAI B, CHEN X P.Hadoop internals： in-depths study of common and HDFS[M].Beijing： China Machine Press, 2013.

[3]孟鑫, 马延辉, 李立松.HBase企业应用开发实战[M].北京：机械工业出版社, 2014.MENG X, MA Y H, LI L S.Enterprise application development with HBase[M].Beijing： China Machine Press, 2014.

[4]皮雄军.NoSQL数据库技术实战[M].北京：清华大学出版社, 2015.PI X J.NoSQL database technology combat[M].Beijing：Tsinghua University Press, 2015.

[5]DIMIDUK N, KHURANA A.HBase实战[M].谢磊, 译.北京：人民邮电出版社, 2013.DIMIDUK N, KHURANA A.HBase in action[M].Translated by XIE L.Beijing： Posts & Telecom Press, 2013.

[6]蒋燚峰.HBase管理指南[M].北京：人民邮电出版社, 2013.JIANG Y F.HBase administration cookbook[M].Beijing： Posts& Telecom Press, 2013.

[7]SHRIPARV S.Learning HBase[M].周彦伟, 娄帅, 蒲聪, 译.北京：电子工业出版社, 2015.SHRIPARV S.Learning HBase[M].Translated by ZHOU Y W,LOU S, PU C.Beijing： Publishing House of Electronics Industry, 2015.

[8]董西成.Hadoop技术内幕：深入解析MapReduce架构设计与实现原理[M].北京：机械工业出版社, 2013.DONG X C.Hadoop internals： in-depths study of MapReduce[M].Beijing： China Machine Press, 2013.

[9]GROVER M, MALASKA T, SEIDMAN J.Hadoop应用架构[M].郭文超, 译.北京：人民邮电出版社, 2017.GROVER M, MALASKA T, SEIDMAN J.Hadoop application architecture[M].Translated by GUO W C.Beijing： Posts &Telecom Press, 2017.

[10]王雪迎.Hadoop构建数据仓库实践[M].北京：清华大学出版社, 2017.WANG X Y.Practice of Hadoop data warehouse[M].Beijing：Tsinghua University Press, 2017.

[11]WHITE T.Hadoop权威指南：大数据的存储与分析(第4版)[M].王海, 华东, 刘喻, 等译.北京：清华大学出版社, 2017.WHITE T.Hadoop： the definitive guide[M].Translated by WANG H, HUA D, LIU Y, et al.Beijing： Tsinghua University Press, 2017.

作者

李成岭，郑雨翔，洪祎祺，李雯，郭慧敏

出处

《电信科学》 2018年第05期

上一篇：靠港船舶岸电信息管理与监控系统设计

下一篇：基于加权关联需求修正的信息化项目造价估算方法

《电信科学》2018年第05期文献

群集运动引发的智慧网络发展思考：情景网络作者：邬江兴，胡宇翔，李玉峰

基于训练序列的UFMC符号定时同步改进算法作者：余翔，周志义，段思睿，陈和力

基于P4的CoLoR架构控制平面的设计与实现作者：刘若涵，罗洪斌，温兴泵

基于用户移动网络接入位置的高效分布式相似矩阵计算方法作者：王源，江昊，吴明，姚冬桂，张毅，羿舒文，汪海，吴静

一种优化网络生存时间的移动传感节点覆盖调度算法作者：杨海波，陈友荣，刘半藤，祝云凯，苏子漪

基于中智加权相似度量的尺度自适应视觉目标跟踪算法作者：胡珂立，范恩，叶军，沈士根，谷宇章

密集异构网络中基于非邻区关系分簇的集中式基站休眠算法作者：曹一侃，解志斌，王亚军，夏本琦

基于STK轨道预报数据的北斗卫星导航系统频谱监测选址分析作者：张琪，林辉

互耦效应对不同阵列流型相关性的影响作者：杨颖，李伟东，薛翠薇，朱秋明，廖志忠，陈小敏

基于逆梅尔对数频谱系数的回放语音检测算法作者：林朗，王让定，严迪群，李璨

基于全景涉信大数据的智慧信用治理体系架构作者：刘汪洋，谢真强，牟其林

全双工D2D通信关键技术及进展作者：丁家昕，冯大权，钱恭斌，张楠

软件定义网络创新实验平台的构建与运用作者：韩颖铮，王萌，陆以勤

城域网重构思路作者：陈华南，龚霞，朱永庆，伍佑明，黄灿灿

运营商大数据用户画像实践作者：王晓霞，刘静沙，许丹丹

运营商发展统一账号认证业务技术方案作者：郭茂文，张荣，卢燕青，黎艳

核心传输机房工艺布局优化的研究与应用作者：陈骋，赵莹映

基于自适应分段广延指数模型的IPTV用户点播行为作者：陈步华，陈戈，梁洁

基于大数据的能源集团统一运行监测与安全预警平台作者：王静，高昆仑，卞超轶，梁潇

面向局域能源互联网的集成技术作者：李树泉，李思维，杨世海，刘晓丹，岳靓

抽水蓄能电站人员定位管理系统关键技术作者：马娜，靳莉

靠港船舶岸电信息管理与监控系统设计作者：刘舒，白纪军，万莎，王皓靖

电网数据存储技术选型的研究作者：李成岭，郑雨翔，洪祎祺，李雯，郭慧敏

基于加权关联需求修正的信息化项目造价估算方法作者：房芳，金志华，张祎，韩豪

杂志信息网