更全的杂志信息网

机器学习在海底管道信号识别中的探索

更新时间:2009-03-28

随着海洋勘探技术的不断进步,海上油气资源的开发利用得到了长足发展。作为海上油气田的“生命线”,海底管道在油气生产集输和储运系统中起着重要的作用。与陆地管道相比,海底管道的运行环境更加恶劣,受自然因素和人为因素所带来的危害影响十分突出,一旦受到损伤,将带来巨大的经济损失和环境问题。因此,按相关规范要求,必须采用有针对性的调查方法,对海底管道进行定期检测,以确保其安全运行。

目前,海底油气管道的检测主要采用浅地层剖面测量方法(以下简称浅剖)对海底管道进行外部检测,按要求以5~100 m的间距布设垂直管道路由走向的检测测线。浅剖能穿透一定深度的浅部地层,获取地层中的管道信号,从而了解管道的空间状态及其附近海底的地质灾害信息[1-3]

(3)决策独立,即独立董事表达出的对决策的相关看法必须出自自己的意志,脱离大股东的控制,尽可能地减小公司管理者对其的影响。

后期的资料解释过程中对管道位置及其空间状态的判读目前大都还是以人工为主,存在效率低且繁琐等问题。本文尝试利用机器学习的方法,通过对以往检测数据的整理学习,建立合适的模型,以达到电脑自动识别管道位置的效果,提升资料解释效率。

1 机器学习算法简介

机器学习作为一种实现人工智能的方法已得到广泛的运用,作为研究计算机模拟人类学习活动的一门学科,其目的是通过对众多的数据进行归纳学习,建立相应模型,利用模型对目标进行预测。从机器学习的定义可以看出,影响机器学习效果有两个重要的因素:一是数据,数据的数量和质量决定了机器学习可达到的高度;二是算法,算法是帮助达到这一高度的阶梯。两者相辅相成,缺一不可[4-5]

目前机器学习算法较多,针对海底管道检测,本文采用了六种常用算法对管道信号进行识别,分别是K近邻(KNN)、随机森林(RF)、逻辑回归(LR)、决策树(DT)、支持向量机(SVM)和迭代决策树(GBDT)[6-7],各种算法的定义见表1。

 

表1 机器学习算法的定义

  

类型 定义K近邻 通过测量与样本之间的距离来分类决策树 生成由多个判断节点组成的树,从数据的属性出发,划分不同的类随机森林 随机建立多个决策树组成的森林,统计最优选项进行分类逻辑回归 根据现有数据的分类边界线建立回归公式进行分类支持向量机通过生成不同类别数据间的最大间隔进行分类迭代决策树基于迭代累加的决策树算法,把多棵决策树的结果累加进行预测判断

2 数据提取与数据集的建立

通过对机器学习方法的了解,首先从浅剖资料中提取相关信息数据,然后对数据进行分类和标识,最终形成可供机器学习使用的数据集。

2.1 浅剖反射信号特征

参考文献:

根据不同算法准确度测试对比,选择了准确率较高的K近邻(KNN)、随机森林(RF)、支持向量机(SVM)、迭代决策树(GBDT)四种算法应用在实际的检测数据中。目标区域为东海南部的某海底管道,选取其中一天的检测数据:共85条测线,每条测线约有3 000个ping的数据。实际的检测数据具有如下特征:①数据量大;②数据中地层信号占90%以上,管道信号和跳点占比低于10%;③由于海况、底质、仪器、采集参数等多种外在和内在因素的影响,实际采集到的信号的特征复杂度、种类数量远超数据集。需指出的是,前文进行的数据集测试优先考虑的是对各种信号识别的整体准确率,而在实际数据中主要考虑的是管道信号识别的准确率,所以两者运用时选择的参数有所差别。

(1)管道信号。由于海管材质多由钢材制成,与海底地层存在较大的声阻抗差异,当浅地层剖面仪发射声波时,管道能形成较强的反射,且声波信号无法有效穿透管道,导致下部地层反射信息被屏蔽。因此,绕射弧信号及其下部地层屏蔽现象是判断管道位置的重要特征。

训练集样本数的增多有助于提高各种算法的准确率,但是也增加了其运行时长。如图6、图7中,单ping和多ping数据集的测试皆以迭代决策树(GBDT)的运行时间最长,逻辑回归(LR)和随机森林(RF)次之,其余几种算法运行时长相对较少。

(1)机器学习运用在管道检测数据中,对管道信号进行自动判断识别,不仅有助于对资料的解释,而且大大提高了工作效率,通过机器学习方法在浅剖资料中的应用,展现了其在物探资料解释领域良好的应用前景。

  

图1 浅剖资料中的不同反射信号

2.2 数据格式介绍

目前常用的管道检测仪器有德国INNOMAR公司生产的SES2000系列参量阵浅剖仪,其所采集资料为SES格式文件,经转换后可保存为ASC文件。ASC文件将数据按采集先后顺序依次进行存储。其中每个反射信号数据第1行为数据采集的时间;第2至第9行为外部仪器输入的数值,如涌浪补偿仪数据、GPS位置信息等,位置可自行调整;第10和11行为剖面的起始深度和剖面的垂向长度;第12行为采集频率;第13行为脉冲长度;第14行为采样频率;第15行为反射信号的数据量;第16行开始为反射信号数据。

志愿服务(volunteer service)是公民个人基于道义、信念、良知、爱心和责任,利用自己的时间、技能、资源、善心为他人、社区和社会提供的一种公益性服务。[2]志愿服务的本质与特征就在于它的志愿性、无偿性与公益性,其对培育与践行社会主义核心价值观具有重要作用。

从ASC文件中提取的典型的反射信号形态见图2,图中蓝色曲线为不同地下情况所获得的单ping振幅记录(每一个反射信号即为一个ping),可以看到这几种信号反射形态上具明显区别:掩埋管道反射信号表现为海底和管顶之间是正常的地层反射,管道为一强振幅反射,下方由于屏蔽作用,均为弱振幅反射;而裸露的管道信号在管道处表现为一强振幅反射,管道下方是弱振幅反射。

1.2.3秋串 植株高大,生长势强。叶片绿色,有蜡粉,叶片较多且大,叶柄较粗。球茎大,扁球形,表皮稍粗,浅绿色,皮薄,球茎表面有蜡粉。肉质白色,质脆嫩,味甜。该品种晚熟,从定植到收获90~100天,其产品主要用于酱制加工。

2.3 数据提取及建立数据集

根据ASC文件的格式,分别提取管道、地层及空白带等反射信号,根据信号的类型不同加以不同的标识,如地层信号为1,管道信号为2……等,以此建立数据集。

  

图2 典型反射信号示意图

为了更好地对比,以不同的信号提取方式建立了两个数据集:一个数据集是由单ping反射数据组成;另一个数据集则提取某位置及两侧各3个ping的反射数据,形成由7个ping反射数据组成的数据集合。为保持数据的一致性,提取过程中将不同采样长度的数据信号处理成相同长度(每个ping 480个值)。

3 机器学习算法测试

为分析机器学习算法对反射信号识别的效果,对不同提取方式形成的数据集首先进行测试。为此,将数据集分为训练集和测试集。机器学习首先通过对训练集的学习,建立相应的模型,再根据模型对测试集进行预测判断。最后对比判断值与测试集的分类标识,分析其准确度(图3)。

幼儿是在参与活动的过程中与环境相互作用,从而获得各种知识经验,发展各种能力,获得各种情感体验,形成对自我以及与社会和自然的关系的认识。因此,经历活动的内容选择要遵循幼儿的身心发展特点,关注幼儿的生活经验。

  

图3 数据集测试流程示意图

本文中,每个数据集中约有2 000个样本,将其中500个设为测试集,其余则设置为训练集。为分析样本数量对结果的影响,对训练集进行了进一步的分割。

1.3 本课题研究范围。本课题因为已经确定了绣花鞋垫的具体传承地点,并且将时间定位在近二、三年,所以对于整个土家族绣花鞋垫的概念进行了局部放大,主要考虑目前保存的绣花鞋垫,以及能够代表土家族绣花鞋垫的具体实物。

图4和图5分别为不同算法在单ping和多ping数据集的测试结果。如图可见,各种算法随着测试集样本数的增加,其准确率总体上是呈增加的趋势,但随着样本数的逐渐增多,准确率的增速逐渐趋缓。在单ping的数据集测试中,K近邻(KNN)表现最佳,迭代决策树(GBDT)其次;在多ping的数据测试中迭代决策树(GBDT)表现最好,其次为随机森林(RF)。在两个数据集的测试中,有四种算法的准确率可达到80%以上,而另有两种算法:逻辑回归(LR)和决策树(DT)的准确率欠佳,均在80%以下,原因可能有以下几种:一是数据集的规模太小;二是样本的数据比较复杂(单ping每个样本有480个值,7ping的每个样本有7×480个值);三是该算法可能不适合对这种类别数据集进行分类。

虽然在诗赋略中前两种赋的划分原则问题上我们不敢苟同刘师培、章炳麟、顾实诸家的并列三分之说,但是笔者认为刘、章、顾三家在对“陆贾赋”与“荀卿赋”划分原则这一问题上所持的观点对我们还是很有启发意义的。三家说法虽然阐述有所不同,但在总体上还是有所共同点的,都认为“陆贾赋”是“纵横说辞”之文、“荀卿赋”则是“阐理效物”之文。在总结、吸收前人研究成果的基础上,笔者提出“以文质轻重”作为划分二者的原则,认为二者作品在对待“文质”的问题上侧重点不同,“陆贾赋”为“重文之赋”,而“荀卿赋”则为“重质之赋”。

  

图4 单ping数据集测试准确率对比

  

图5 多ping数据集测试准确率对比

(2)地层信号。不同地层沉积物性、压实程度和含水量存在差异,形成强弱程度各异的波阻抗,在剖面上形成连续程度不等的波阻抗界面。

  

图6 单ping数据运行时长对比

  

图7 多ping数据运行时长对比

4 实际应用

非税收入是政府财政收入的重要组成部分,应当纳入财政预算管理。从资金取得的管理、资金的预算管理及资金的分配使用管理各方面均应遵循政府财政收支预算的基本原则。镇街首先应该保证预算编制的完整性和真实性,按照实际情况进行编制,提升内部编报质量,并严格执行预算法等法律法规,将非税收入全部编入部门年度决算报表,确保会计信息质量;此外,还应该结合经费收支情况,把对预算编报完整性、真实性的审核与对经费收支情况的检查结合起来,从单一预算审核机制提升到“预算加收支”的双轨审查机制,加强预算编报与财政资金使用效益关联性。

通过对实际数据的检测,最终结果显示:单ping数据检测中,地层识别率相对较低,即将更多的地层信号识别为管道信号,但管道信号的识别率较高;而多ping数据检测中,地层的识别率较高,一般可达到100%,但管道信号的识别率则总体较低,即漏掉了更多的管道信号。就四种机器学习方法而言,迭代决策树(GBDT)的测试效果是最好的,不仅管道识别率是最高的,可达95.29%,而且地层识别率也相对较高;K近邻(KNN)方法表现亦不错,其稳定性较好,识别率较高,但不足之处在于该算法的计算机资源占用率较高,运行时CPU占有率将近100%,且预测速度较慢;随机森林(RF)和支持向量机(SVM)则识别效果相对较差(图8、表2、表3)。针对单ping管道识别率高,而多ping地层识别率高的特点,可采取用单ping信号进行识别,而后根据各点与管道轴线间的距离剔除识别错误的地层信号;亦可逐步提高数据集中ping的数量,根据地层及管道识别率折中选择合适ping数量。

 

表2 东海南部管道位置测试精度对比表

  

数据集 项目 KNN RF SVM GBDT单ping 管道识别率 / % 85.88 84.71 58.82 95.29地层识别率 / % 99.94 99.96 99.80 99.94多ping 管道识别率 / % 80.00 65.88 77.65 88.24地层识别率 / % 99.99 100.00 99.99 100.00

  

图8 东海南部管道位置测试效果

 

表3 机器学习方法效果对比表

  

类型 训练速度 预测速度 预测精度K近邻 快 较慢 较高决策树 快 一般 低随机森林 一般 一般 较高逻辑回归 一般 一般 低支持向量机 快 一般 一般迭代决策树 慢 一般 高

5 结论

(3)空白带(信号缺失)。受船只姿态、噪音、水中物体等因素影响,接收器无法采集到有效的反射信号,在剖面中反映为一宽窄不一的条带状弱反射现象。各种反射信号在剖面中的特征见图1。

(2)根据文中测试效果,各种机器学习方法对不同类型的数据效果不尽相同,应根据实际情况选用相应的算法。

(3)通过多种机器学习方法在管道信号识别中的初步探索,获得的结果还是令人满意的,下一步工作将继续补充数据集,并提取信号的特征作为参数加入数据集,以进一步提高识别的准确率。

在海管检测采集到的浅剖资料中,有3种反射信号较为常见:

[1]李斌, 杨文达, 张异彪, 等. 海底管道的浅地层剖面图上反射特征与判读方法 [J]. 海洋测绘, 2010, 30(5): 56-58.

[2]蔡春麟, 张异彪, 顾兆峰. 参量阵浅地层剖面技术在海底管道检测中的应用 [J]. 海洋地质动态, 2007, 23(4): 38-42.

[3]张兆富. SES-96参量阵测深/浅地层剖面仪的特点及其应用[J]. 中国港湾建设, 2001, 21(3): 41-44.

[4]Harrington P. 机器学习实战 [M]. 李锐, 李鹏, 曲亚东, 等译 .北京: 人民邮电出版社, 2013.

“这个污水处理设施当然好,你看我们村现在的环境多好,空气也清新,村里人没事就喜欢出门散散步。”谈起污水处理设施带来的变化,村民聂爱真是心生欢喜。她还告诉笔者,村里建设污水处理设施前,家门口就是个粪坑,夏天蚊蝇滋生,又脏又臭。现在每家每户都铺设了污水管道,生活污水通过管网直接流进污水处理池,再也不见蚊蝇围绕的脏乱景象,村子到处干干净净。

[5]郭亚宁, 冯莎莎. 机器学习理论研究[J]. 中国科技信息, 2010(14): 208-209, 214.

[6]孙万龙. 基于GBDT的社区问题标签推荐技术研究[D]. 哈尔滨: 哈尔滨工业大学, 2015.

[7]ALAVI A H, GANDOMI A H, LARY D J. Progress of Machine Learning in Geosciences: Preface[J]. Geoscience Frontiers,2016, 7(1): 1-2.

 
施健,蔡春麟
《海洋石油》 2018年第01期
《海洋石油》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号