更全的杂志信息网

利用深度学习进行图像分割

更新时间:2016-07-05

1.概述

1.1 研究背景与意义

随着互联网社会的发展,尤其是社交网络的发展,我们可以获得大量的图像数据,那么如何从大量的图像数据中获得我们所需要的信息就变得越来越重要。另一方面,随着硬件技术的进步,计算能力的提升,深度学习越来越成为当前解决问题的重要方法。深度学习在图像分割领域的利用主要是卷积神经网络,而卷积网络的出现使图像分割的发展进入新的阶段。它在图像识别领域的优势是显而易见的,不仅促进了图像分类,使其更高效和精确,还在对图像任务具体结构的输出方面取得了关键性的进展。这些进展包括目标检测,图像分类,以及对部分和关键点检测技术等。

图像分割是一个更加深层的工作,它的应用也非常的广泛。不仅可以应用到人脸识别,指纹识别等方面,提高了设备的安全性,在信息爆炸的时代保障我们的信息安全;还能应用于道路识别,行人检测等方面,实现载具的自动驾驶,既方便了人类的生产与生活,又可以提高行车安全,避免交通事故的发生。更重要的是,图像分割在医学领域也用途广泛,包括肿瘤和其他病理的诊断,手术辅助等方面,无疑能协助驱走病魔,造福人类。

2.1.3 维生素缺乏 羊只在放牧过程中容易造成维生素A、维生素D、维生素E的缺乏,引起羊只繁殖率低下和产弱羔、死胎等现象。所以,在补充饲喂时应注意胡萝卜素和多维素等的适量添加。

但是,图像分割领域仍然存在着大量的挑战。比如说如何让计算机像人类一样去理解图像的内容,本身就已经非常的困难,那么如何让计算机去更加精确的分割出我们想要的结果,就更加的困难了。我们人类对于一个事物的认知常从它的外观特征出发,但对计算机来说,它只能“看到”数字矩阵,而这种矩阵是难觅规律的。若从人类的角度出发,让计算机去理解图像并完成相应的任务,无疑是非常困难的。而且事物总是多变的,既有空间上角度,位置的变化,也有时间上新老的更替,要让计算机拥有这种适应变化的鲁棒性是极其重要但又是一个非常大的挑战。

1.2 研究现状

传统的基于阈值分割的方法通常是以灰度直方图作为划分选取的标准,但这种方法并不能对图像的灰度做出非常全面的描述。李欣等人提出利用图像方差加权信息熵来更加精确地反应图像的细节,以实现精确分割的目的,其对低信噪比的红外云层背景中的弱小目标图像的检测有较高的精度。赵峙江等人提出利用灰度—信息量直方图来描述图像的信息,并在此基础上对图像进行分割。但上述的方法都仅对图像的各灰度级进行统计和集合,都难以精确地表达各灰度级的空间分布情况。

传统的用于做图像分类的网络,比如LeNet,AlexNet,VGGNet等,已经在图像分类领域取得了非常不错的效果,但是这些用作分类的网络通常只能接受固定大小的输入,然后连接一个全连接层,通常全连接层也有着固定大小的维度,这样输出的结果通常是作为分类的依据。在图像分割这个领域我们希望的是输入是一副图像,输出的时候是一副跟原图大小相同或者是成比例的一副图像。因此我们可以把全连接层可以看做是覆盖整个输入大小的卷积层,这样做我们就可以输入任意大小的数据,然后输出他们的分类结果,当然这个结果也是任意大小的。

2.图像分割

2.1 什么是图像分割

SegNet本身的设计目标就是为了处理这种语义分割任务的,并且与其他的网络相比,它更加的高效。SegNet在设计的时候充分的考虑了道路场景理解的任务,也就是说SegNet满足了道路场景理解所要求的能够模拟外观,比如道路以及建筑物等的外观,能够模拟汽车,行人等的形状,以及理解不同的类别之间的空间关系。另外在典型的道路场景中,大量的像素点属于比较大的类别,比如道路,建筑物等,因此网络能够产生一些比较平滑的分割结果。并且道路场景理解要求网络对于一些比较小的物体,也能够非常好的去分割出它们的边界。因此,在提取的图像表示中保留边界信息也是十分重要的。从计算的角度来看的话,由于图像分割任务主要用在实时性比较高的地方,比如监控,无人驾驶车辆等,在预测的阶段比较的高效也是图像分割的一个必要的条件。为了比较快递的优化网络中的所有权重,使用有效的权重更新技术,比如随机梯度下降结束进行端到端的训练也是一个额外的好处。SegNet的设计本身就考虑了上述的标准,因此我们选择使用SegNet进行图像分割任务。

2.2 图像分割的一般过程

语义图像分割任务是一个相对来说比较复杂的任务,是一种像素到像素级别的分类任务,目前所使用的方法也是千差万别,本文通过对大量论文的调研,决定使用Mean IoU作为本文的评价标准。Mean IoU的定义如下:

2.2 两组影像学缓解情况的比较 为明确胸腺肽α1在结核性胸腔积液患者影像学吸收方面的作用,分别统计了治疗1个月、2个月、3个月后实验组和对照组在影像学吸收率方面的差异,结果显示,在治疗1个月、2个月、3个月后实验组的影像学吸收率均明显高于对照组,差异有统计学意义(P<0.05),提示在应用胸腺肽α1后患者的影像学吸收率和吸收速度均有所提高,缩短了患者的病程,见表3。

在做卷积的时候,为了增大网络的视野,我们通常会在卷积层后面添加一个池化层来实现这种操作。但是这样的操作会造成图像的分辨率越来越低,为了获得分辨率比较好的图片,FCN将全连接层换成了卷积层,也就是说是一个没有全连接层的网络。本文采用的网络结构如下:首先读入一张任意大小的图片,但是由于caffe在做池化操作遇到奇数的时候会向下取整,这样在做反卷积的时候会出现图片大小对应不上的问题,因此本文采用的图片的长和宽都是2的幂次方大小。第一块会有两个卷积层,每个卷积层都是64个3*3大小的卷积核,后面会有一个池化层,池化层采用最大池化,核的大小为2*2,我们这一个块叫做池化1;第二块与第一块的基本相同,不过本文在这一块的卷积层中所使用的核为128个;第三块在第一块的基础上增加了一个卷积层,卷积层中都是有256个3*3大小的卷积核;第四块与第三个块基本相同,但是卷积核的个数变为256个;第五个块与第四个块相同。在第五块后是4个卷积层,第一个卷积层为4096个7*7的卷积核,第二个是4096个1*1的卷积核,第三个卷积层为21个1*1的卷积核,第四个是21个4*4的卷积核,然后构成了网络的输出,但是这样的输出的图片为原图的1/32,很多细节部分分割不清楚。因此,本文分别在第三块与第四块后添加一个卷积层,使用21个1*1的卷积核,最后将三个预测结果叠加起来构成最后的输出。这样预测图片的分辨率变为原图的1/8,根据实验效果,明显比1/32的预测结果要好得多。

3.图像分割方法

3.1 全卷积神经网络

另外Wu等人利用了网络中最大流和最小割等价的原理,把对图像分割的复杂的问题简化为解对应图像最小割的问题。这种方法虽然最大化了子图间的差异性,但其没有使子图内部的差异性尽可能小,也故它仅对单个节点的分离存在优势。Rother等人提出的基于迭代的图割方法可以根据图像的RGB色彩信息以及边界信息,加之简捷的人工操作就能使分割的结果非常准确。Morris等人提出相似像素聚集,相异像素分离的划分原则,借此得到不同尺度的划分,并利用最小生成树的方法对其进行分割,有较好的分割效果。

当取k>K时,对应的图划分将使某些真实聚类划归为不同类属,使得Wjj′中各元素取值增大、Lk的块对角性减弱,相应的Uk后(k-K)列不为近似分段常量.由此导致类属同一目标类的像素特征点呈现弱聚集性.

3.2 Segnet

图像分割是计算机视觉领域的一个基础的研究方向。图像分割的目标是对于每一个像素点进行分类任务,即赋予每一个像素点一个类别。图像分割分为语义分割和实例分割两种,本文主要的研究是关于语义分割的。图像分割预测了每一个元素的类别,位置以及元素的形状特征。图像分割在自动驾驶,机器感知领域都有着非常多的应用。

随着科技的发展,一些新鲜的技术使得一些器材更加便捷与智能[7]。南京体育学院休闲体育专业在开展民间体育项目——石锁的过程中,在于翠兰老师的带领下,改良了传统石锁笨重、材质坚硬、体积过大过重,及易损坏的特质,使用外部缓冲皮包裹内部金属块,延长使用寿命;并且在把手上加上防滑层,优化手感;新型石锁设计了2kg、3kg、4kg、5kg、6kg等不同的重量适用于任何场所进行练习,满足于不同石锁爱好者的需要,使练习者在使用的过程中更加安全[8]。

SegNet是一个编码解码的结构,也就是说每有一个编码器就会有一个解码器与之对应,最后一个像素级的预测层,主要的网络结构如图1所示。编码器总共包含13个卷积层,这13个卷积层也就是vgg16的前13个卷积层,这也就意味着我们可以使用在ImageNet中已经训练好的vgg16的网络参数来初始化我们的网络,这样我们就可以获得更加多的特征。为了增加网络的速度,同时获得比较高分辨率的特征图,本文将vgg16最后的全连接层全部去掉。另外为了减少最大池化中丢失的特征,SegNet提出了一种如何去存储信息的方法,就是保存下最大池化中最大值的下标来,每个池化层中用两个位来存储,一个是最大的值,一个是最大值的位置。解码器中的上采样用的是保存的最大池化中的下标来上采样的,这一步可以获得比较稀疏的特征图。同时SegNet创新性的将浅层的编码器与深层的解码器相加共同组成当前解码器的输出,可以利用较浅的特征与较深的特征增加预测的准确率。

图1 网络结构图

4.模型评价方法

图像分割主要包括四个基本步骤,第一步是对数据的预处理,由于在网络的反卷积操作中需要对图像的尺寸进行upsample,因此我们需要对原始的图像进行处理,处理成2的幂次方大小的图片第二步是对图像进行数据增强操作,主要原因是数据量不足,容易造成网络过拟合,本文中使用的图像增强操作主要包括图像的随机翻转,以及随机对长和宽做裁剪。第三部是对构造分割模型,这一部分我们主要在第三部分进行介绍,最后是使用我们已经训练好的网络对图像进行预测,获得分割的效果。

其中,交集表示我们预测出来的一类物体的所有区域与真实的标记的区域的交集,并集指这两者的交集。Mean IoU的计算充分的考虑了交集与并集,也就是说在分割的过程中,如果我们要使得这个平均标准最大的话,我们需要同时满足使得模型的预测结果中对于预测正确的类别要越大对于预测错误的类别越少。

在此次研究中,我们对70例股骨粗隆骨折患者进行了分析,均是老年患者,为患者提供了针对性的护理,提供镇痛和深静脉血栓的护理,避免患者在接受治疗的过程中出现并发症,根据研究结果显示,全部患者接受护理之后,共有65例顺利的度过了围手术期,有5例患者在治疗阶段有并发症产生,经过护理人员针对性的积极的护理,患者均痊愈,全部患者顺利康复出院。

5.总结与展望

随着深度学习的发展,利用深度学习解决图像分割任务也变得越来越重要,尤其是随着硬件技术的进步,大量GPU的使用加快了深度学习的速度。同时图像分割可以应用到大量的领域,如安防,娱乐,以及自动驾驶等。

本文主要介绍了图像分割的背景,意义,研究现状,以及图像分割的一般步骤,重点介绍了图像分割的方法,如全卷积神经网络,SegNet等。

但是,利用深度学习解决图像分割还存在着大量的问题,包括:1)远处物体分割不准确;2)部分细节分割不准确。

参考文献

[1]Jonathan Long.Fully Convolutional Netw orks for Semantic Segmentation[J].

[2]Vijay Badrinarayanan.SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J].

[3]王崴.基于图像复杂度的图像分割算法[J].

[4]姜枫.基于内容的图像分割方法综述[J].

[5]Yann LeCun.Gradient-Based Learning Applied to Document Recognition[J].

李家栋
《电子世界》 2018年第10期
《电子世界》2018年第10期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号