更全的杂志信息网

基于多尺度特征提取的场景文本检测新方法*

更新时间:2009-03-28

检测和识别自然场景中的文字在工业领域一直是一个重要的课题,如检测与识别工业仪表上的读数、汽车车牌号及路牌信息等。近些年来,随着基于深度学习的通用物体检测框架和像素级别语义分割的快速发展,场景文字检测的研究也随之进入了一个新纪元,检测精度得到了大幅提升。其中,基于通用物体检测框架(Faster R-CNN[1]、Yolo[2]及 SSD[3]等)的场景文字检测方法见文献[4~10],这类方法将文本段视为通用物体,并根据文本的特点设计了不同尺寸和形状的锚点;基于像素级语义分割(Fully Convolutional Network, FCN[11])的方法见文献[12, 13],这类方法在语义分割的基础上增加了回归层,以直接得到每个文本的位置信息。其中现有的F1分数(一种衡量二分类模型精确度的指标,也叫F-score)最高的几种方法均为基于全卷积网络的,其特点在于融合了不同特征层的特征,高层的语义信息用于分类,低层的结构化信息用于辅助回归,FCN将高低层特征进行融合,一定程度上缓解了小目标信号难以传播到高层,低层的感受野太小,又无法检测到大目标的问题。然而由于文本几何结构的特殊性——长宽比例不定且尺度变化剧烈,对于诸如VGG[14]或PVANET[15]等通过堆叠卷积层和池化层而得到的神经网络(下文称作简单网络),它们在融合了高低层特征后,依然无法应对文本剧烈的尺度变化。在实验中,发现相同图片在不同尺度下进行测试得到的结果相差较大,这一点在文献[12]中也有类似的结论。

因此笔者提出了一种基于多尺度特征提取的场景文本检测方法,该方法由两部分构成:深度神经网络和后处理。整体网络基于FCN框架,网络输出用于预测每个像素对应文字区域的外接旋转矩形的位置,将这些信息送入后处理部分,利用非极大值抑制算法(NMS)消除重叠的旋转矩形位置,得到最终结果。

对于网络的检测性能,ICDAR系列[16~18]竞赛和COCO-Text[19]竞赛常被用作评判标准。因此笔者选择在这些数据集上进行训练与测试。

1 检测方法

笔者所提方法的主体为深度神经网络,该网络用于预测文本的几何位置,随后通过非极大值抑制算法消除重叠的位置得到最终结果。其中深度神经网络由3部分组成:特征提取层、特征融合层和输出层。不同于现有方法[12]的是笔者在特征提取层中引入了Inception[20]结构,如图1所示,图中Conv代表卷积操作,括号中的参数分别为卷积核大小和通道数;Concat代表将两个特征图的不同通道连接到一起;MaxPool代表最大池化;Unpool代表上采样,参照FCN[11]的做法,直接使用双线性插值。

These results indicated that the expression of the miR-320 family decreased from the early stages of the adenoma-carcinoma sequence.

不同于简单网络,Inception结构是将不同大小的卷积核和池化层的输出串联在一起,这使得特征层的每一层都包含有不同尺度的信息。这样做一方面通过增加网络的宽度增加了网络的描述能力,另一方面增强了网络对文本尺度变化的鲁棒性。

  

图1 网络结构对比

地黄Rehmanniaglutinosa Libosch. 产地河南,砂仁Amomnmviuosumo Lur. 产地广东,大黄Rheumpalmatum L. 产地陕西,均购自蚌埠医学院第二附属医院,经蚌埠医学院王迪生副教授鉴定,符合《中国药典》2015年版要求[4]。黄酒(批号20170627,酒精度15%),中国绍兴黄酒集团有限公司生产;D-木糖(批号F20180328),中国医药集团北京索莱宝责任有限公司;D-木糖试剂盒(批号20180401)、血清胃泌素(GAS,批号20180124)、血清胃动素(MTL,批号20180309)试剂盒均购自南京建成生物工程研究所。

1.1 网络结构

整体网络框架设计如图2所示,与DenseBox[21]类似,一幅图像作为输入,通过一个类似于FCN的网络提取特征(主干网络为Inception v4[20],为保证特征融合的尺寸大小匹配,将卷积操作时特征图的填充方法全部更改为与边界值相同),并将其中的4层特征融合,得到一个四分之一原图大小的特征图,在它上面连接6个通道的输出,其中一个通道输出该像素属于文本区域的置信概率,其值在0~1之间。剩下的5个通道中,其中一个通道预测该像素所属文本区域的外接旋转矩形的旋转角度,其余4个通道预测该像素距离该旋转矩形4条边的距离。

总的来看,保税区、出口加工区、保税物流园区、保税港区和综合保税区主要是为顺应我国当时的“要素成本洼地”优势,通过保税便利化海关监管与优惠关税政策形成“政策洼地”,大力发展加工贸易产业,主动融入全球产业链条的制造环节,以此撬动外部资本、技术、市场推动下的经济起步与腾飞。自由贸易试验区则是基于大国经济崛起所形成的发展基础,以对接全球最高开放标准所释放的倒逼改革动力,进行机制体制创新,破除帕累托渐进式改革尚未解决的旧制度壁垒以及长期高速发展累积形成的新发展瓶颈,以此推动和实现经济发展转型升级。这也在根本上决定了自贸区制度创新的核心功能。

印象深刻的是看电影时的情景。电影是在我们的禾场上放的。禾场边上有两个很深的洞,是专门用来放电影时插挂幕布的柱子的。没电影放时,两个洞用石块填上。洞里常常住着一些小动物,我们常常用棍子去捅,一只蛤蟆跳出来了,又一只蛤蟆跳出来了,一会儿,满地都是蛤蟆,大大小小,欢蹦乱跳。我们满场子追逐蛤蟆,抓起蛤蟆与伙伴们“互扔”,完全不顾蛤蟆的感受及其死活,至今想来仍觉“罪过”……捅着捅着,有时突然捅出一条灰色的青色的或黑色的小蛇来,我们霎那魂飞魄散,一哄而散。

  

图2 网络架构

Lreg——回归损失;

1.2 真值与损失函数

网络的损失函数可以表示为:

L=Lcls+λbalanceLreg

(1)

最终回归损失:

The schematic of the proposed 2nd 14 bit/500 Hz sigma–delta modulator is shown in Fig. 5.

首先,ATLAS采用先进的内存优化技术,避免了内存碎块的产生而带来的内存使用率降低问题,也避免了频繁的系统调用造成性能的下降。其次,ATLAS运用OpenGL图形引擎的VBO、FBO以及GLSL技术直接对硬件编程,充分利用GPU的能力完成大模型的三维渲染。第三,ATLAS采用了质数哈希数据结构对海量数据进行索引,可以在常数时间定位任意节点与单元,同时ATLAS创新的采用了预排序文件缓存技术。经过大量优化工作,ATLAS软件实现在普通计算机上很迅速地生成、处理上亿自由度的有限元分析模型。

真值的设定如图3所示,与文献[12]相同。其中外部矩形框为文字区域的外接旋转矩形,内部矩形框为文字区域的外接四边形(图3中该四边形为旋转矩形),通过4条边均向内缩小0.3倍短边长得到,内部矩形框内区域的像素视为正样本,真值为1,其余区域设为0。仅对内部矩形框内的像素计算回归损失,以其中一点为例,4个箭头代表该像素到外接旋转矩形的4个距离。以图3的左上角作为原点,外接旋转矩形的4个角点中欧式距离距原点最近的点作为1号点,顺时针依次为2、3、4号点,其中2、3号点连线的角度作为该旋转矩形的角度。这样设定主要是为了避免二义性,否则网络的回归部分会无法收敛。

  

图3 标注示意图

使用Dice系数[22]的差异函数作为分类损失:

 

(2)

式中预测值;

R*——外接旋转矩形的真值。

θ*——旋转角度的真值。

对于每个像素对应的外接旋转矩形部分的损失,笔者采用IoU(真值与预测值的重叠比例)的相反数来进行计算[23]

包络夹持下夹持器优化前后夹持力的对比如图7所示和表8所示,包络夹持力提升幅度仿真值与理论值对比如图8所示,两者误差为4.68%<5%,这说明包络夹持力建模及最终优化结果具备正确性。

 

(3)

式中预测的外接旋转矩形;

λbalance——LclsLreg的平衡系数。

Y*——真值。

旋转矩形中旋转角的损失设为:

聚类分析又称集群分析,它是按“物以类聚”原则研究事物分类的一种多元统计分析方法,它根据样本的多指标、多个观察样品数据,定量地确定样品、指标之间存在的相似性或亲疏关系,并据此联结这些样品或指标,归成大小类群,构成分类树结构图,是分区最常用的方法之一。本研究采用SPSS统计软件进行分类,在一级分区的基础上,完成二级分区。

 

(4)

式中预测的旋转角度;

这样设置损失函数的目的是将预测图与真值图的差异程度作为损失,这样就无需考虑一张图中正负样本分均不均的问题,同时还可以在一定程度上减缓假阳性的问题。

式中 Lcls——分类损失;

Lreg=Ldis+λθLθ

(5)

式中 λθ——距离损失和角度损失的平衡系数。

2 实验

2.1 训练

笔者使用Adam优化器来进行训练[24],批次训练图片数量为16,训练数据从ICDAR2013[17]、ICDAR2015[18]的训练集上随机剪裁并随机缩放(缩放比例取0.7、1.0、1.2、1.3),最后填充黑色得到512×512大小的图片。损失函数的平衡参数λbalance=100,λθ=20。学习率从0.000 1开始,每三万步下降十分之一,最终训练9万步时停止,NMS的阈值为0.7。下文的实验结果均在这个模型上进行测试。

2.2 测试数据集

ICDAR2015 Incidental Scene Text[18]数据集包含1 000张训练图片,500张测试图片,通过Google Glass进行采集,所以图片相对模糊且文字为多角度、包含畸变。标注真值为文字区域外接四边形的4个角点坐标。

COCO-Text[19]是现有的最大文字检测方面的数据集,拥有43 686张训练图片,10 000张验证集,10 000张测试集,数据的标注真值为外接矩形信息,所以在测试时,网络的输出(外接旋转矩形)需要在其基础上再外接矩形以与其真值相匹配,用于计算正确率。

2.3 结果对比

在ICDAR2015数据集上的测试结果见表1。当对原图(1280,720)通过笔者所提方法进行测试时, F1分数达到0.835 3,相比当前最佳方法(0.810 0)[13]提高了2.53%,具有业内领先的成果。

 

表1 ICDAR2015数据集测试结果

  

模型查全率查准率F1分数笔者方法0.80500.86810.8353文献[13]0.80000.82000.8100文献[12](MS)0.78330.83270.8072文献[12]0.73470.83570.7820文献[25]0.77030.79330.7816文献[26]0.76800.73100.7500文献[27]0.68220.73230.7064

注:MS代表将图片进行多尺度变化后再进行测试,缺省状态下为将图片以原图大小进行测试。

表2为在COCO-Text数据集上的测试成果,笔者所提方法依旧达到了业界领先的成果,这说明该方法具有不错的泛化性能。

 

表2 COCO-Text数据集测试结果

  

模型查全率查准率F1分数笔者方法0.54310.62420.5808文献[12]0.32400.50390.3945文献[19](BaselineA)0.23300.83780.3648文献[19](BaselineB)0.10700.89730.1914文献[19](BaselineC)0.04700.18560.0747文献[28]0.27100.43230.3331

图4展示了笔者所提方法在ICDAR2015和COCO-Text数据集上的测试样例,可以看出该方法在不同场景下都有较强的鲁棒性。

如图4c所示,对于特殊形状的文本(如曲线形状的文本等)以及对于不同单词连接到一起但是没有明显空隙的情况下(语义上分开,但是几何上相连的情况),笔者所提方法有一定的局限性。

  

图4 测试样例

3 结束语

笔者提出了一种场景文字检测方法,该方法将不同尺度的特征信息融入到网络的设计中,这加强了网络对文本尺度变化的鲁棒性。另外,该方法是端到端的,输入一幅自然场景图片,可以直接得到词级别或行级别的文字区域的信息。在ICDAR2015和COCO-Text数据集中,该方法均取得了业内领先的成果,验证了该方法的有效性。

Some words appeared in the drama doesn’t represent the meaning which the word itself represents,therefore requires the translator to seek out the meaning which the word metaphor.Here take an example from a libretto from scene five in the drama《风流土司》.

下一步的工作方向为:设计对尺度更加不敏感的网络;设计更加快速的检测框架;将检测与识别相结合放在一个深度神经网络中,实现端到端的检测与识别。

参 考 文 献

[1] Ren S,He K,Girshick R,et al.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137~1149.

[2] Redmon J,Divvala S,Girshick R,et al.You Only Look Once: Unified, Real-time Object Detection[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2016:779~788.

[3] Liu W,Anguelov D,Erhan D,et al.SSD: Single Shot MultiBox Detector[C].European Conference on Computer Vision.Amsterdam,The Netherlands:Springer,2016:21~37.

[4] Jiang Y,Zhu X,Wang X,et al.R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection[DB/OL].https://arxiv.org/abs/1706.09579,2017.

[5] Ma J,Shao W,Ye H,et al.Arbitrary-Oriented Scene Text Detection via Rotation Proposals[DB/OL].https://arxiv.org/abs/1703.01086,2017.

[6] Qin S,Manduchi R.Cascaded Segmentation-Detection Networks for Word-Level Text Spotting[DB/OL].https://arxiv.org/abs/1704.00834,2017.

[7] Liao M,Shi B,Bai X,et al.TextBoxes: A Fast Text Detector with a Single Deep Neural Network[C]. Association for the Advancement of Artificial Intelligence.San Francisco, USA:AAAI,2017:4161~4167.

[8] Tian Z,Huang W,He T,et al.Detecting Text in Natural Image with Connectionist Text Proposal Network[C].European Conference on Computer Vision.Amsterdam,The Netherlands:Springer,2016:56~72.

[9] Epshtein B,Ofek E,Wexler Y.Detecting Text in Natural Scenes with Stroke Width Transform[C].IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2010:2963~2970.

[10] Liu Y,Jin L.Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection[DB/OL].https://arxiv.org/abs/1703.01425,2017.

[11] Shelhamer E,Long J,Darrell T.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640~651.

[12] Zhou X,Yao C,Wen H,et al.EAST: An Efficient and Accurate Scene Text Detector[DB/OL].https://arxiv.org/abs/1704.03155,2017.

[13] He W,Zhang X,Yin F,et al.Deep Direct Regression for Multi-Oriented Scene Text Detection[DB/OL].https://arxiv.org/abs/1703.08289,2017.

[14] Szegedy C,Liu W,Jia Y,et al.Going Deeper with Convolutions[C].2015 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE:2015:1~9.

[15] Kim K,Hong S,Roh B,et al.PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection[DB/OL].https://arxiv.org/abs/1608.08021,2016.

[16] Shahab A,Shafait F,Dengel A.ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images[C].2011 11th International Conference on Document Analysis and Recognition. Piscataway,NJ:IEEE,2011:1491~1496.

[17] Karatzas D,Shafait F,Uchida S,et al.ICDAR2013 Robust Reading Competition[C].2013 12th International Conference on Document Analysis and Recognition.Piscataway,NJ:IEEE,2013:1484~1493.

[18] Karatzas D,Gomez-Bigorda L,Nicolaou A,et al.ICDAR2015 Competition on Robust Reading[C].2015 13th International Conference on Document Analysis and Recognition. Piscataway,NJ:IEEE,2015:1156~1160.

[19] Veit A,Matera T,Neumann L,et al.COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images[DB/OL].https://arxiv.org/abs/1601.07140,2016.

[20] Szegedy C,Ioffe S,Vanhoucke V,et al.Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning[C].Proceeding of the AAAI Conference on Artificial Intelligence.San Francisco, USA:AAAI,2017:4278~4284.

[21] Huang L,Yang Y,Deng Y,et al.Densebox: Unifying Landmark Localization with End to End Object Detection[DB/OL].https://arxiv.org/abs/1509.04874,2015.

[22] Dice L R.Measures of the Amount of Ecologic Association between Species[J].Ecology,1945,26(3):297~302.

[23] Yu J,Jiang Y,Wang Z,et al.Unitbox: An Advanced Object Detection Network[C].Proceedings of the 2016 ACM on Multimedia Conference.Amsterdam,The Netherlands:ACM,2016:516~520.

[24] Kingma D,Ba J.Adam: A Method for Stochastic Optimization[DB/OL].https://arxiv.org/abs/1412.6980,2014.

[25] Hu H,Zhang C,Luo Y,et al.WordSup: Exploiting Word Annotations for Character Based Text Detection[DB/OL].https://arxiv.org/abs/1708.06720,2017.

[26] Shi B,Bai X,Belongie S.Detecting Oriented Text in Natural Images by Linking Segments[DB/OL].https://arxiv.org/abs/1703.06520,2017.

[27] Liu Y,Jin L.Deep Matching Prior Network: Towards Tighter Multi-oriented Text Detection[J].arXiv Preprint, 2017:1703.01425.

[28] Yao C,Bai X,Sang N,et al.Scene Text Detection via Holistic, Multi-channel Prediction[DB/OL].https://arxiv.org/abs/1606.09002,2016.

 
谢锋明,阮少辉,卢俊国,金忠孝
《化工自动化及仪表》2018年第04期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号