更全的杂志信息网

基于改进遗传算法的大数据智能搜索研究

更新时间:2009-03-28

大数据的智能搜索已有了二十多年的发展,经过技术的不断完善,大数据的搜索速度和搜索精度都有了极大的提升,但技术层面上仍然没有较大的改变,具有较大的局限性。不同业务对大数据的搜索引擎也有不同的需求。已有的“一对多"搜索模型无法满足更多的信息检索者的实际需求,从而无法实现大数据的智能搜索。针对这一缺陷,应该寻求一种有效的方式来实现不同人的大数据检索需求。智能算法是提高大数据智能搜搜索的有效途径,遗传算法具有并行性和全局寻优性能,因此可以在大数据智能搜索中有较好的应用。但是,传统的遗传算法存在易产生停滞现象、易于陷入局部最优等缺陷,为了弥补这一缺陷,需要对其进行改进,从而提高大数据搜索的智能化水平〔1〕

1 大数据搜索系统

大数据搜索系统包括人机交互层、查询处理层和数据管理层。

人机交互层的功能是实现大数据检索用户和搜索系统的直接交互,通过完善的人机交互层实现检索用户和搜索系统的流畅交流,从而提高大数据检索的准确性。

人机交互层主要包括交互界面模块、可视化模块以及社交化模块。大数据搜索系统的交互界面模块保证检索用户有效地构建查询,同时提高检索的有效性。可视化模块有利于检索用户直观地理解大数据信息,通过大数据图形显示方式看到其背后的隐含价值。社交化模块实现检索用户的协同搜索大数据信息,用户能够获得更加精准的内容推荐〔2〕

查询处理层主要包括查询构造模块、查询执行模块以及查询结果重构模块。查询构造模块的功能是提供人机交互层的查询推荐,同时也可以实现查询重构功能。查询执行模块的功能是将搜索结果和有关内容返回,提高返回检索结果的精度。检索结果重构模块的功能是将检索后的信息进行抽取和重构。

姓名:李彩霞,性别:女,出生年月:1967,12,民族:汉,籍贯:河南省平顶山市郏县,学历:硕士研究生,职称:副教授。研究方向:英语应用语言学工作单位:平顶山学院。

在某矿山作业现场,某公司生产的三轴矿用重型自卸车其整车整备质量21 t,最大装载质量55 t,重载常用车速10 km/h , 空载常用车速30 km/h。在投入运营不久后,频繁发生平衡悬架用上推力杆裂纹甚至断裂的故障,严重影响了整车的使用寿命和正常的矿山作业,给企业和用户带来了巨大的经济损失。为此利用ABAQUS有限元分析软件对推杆进行特性分析,以便找出推杆过早断裂的原因,并提出改进方案。

2 改进遗传算法的数学模型

遗传算法是1975年由科学家Holland提出的,是依据生物进化的规律提出的一种智能算法。遗传算法具有两个基本特点,分别是并行性和全局性。针对大数据搜索问题,利用遗传算法能够获得较好的大数据智能搜索效果。为了提高遗传算法的有效性,引入了一个适应度,通过两个适应度确定遗传算法的种群。

数据管理层为用户提供高性能的查询服务。数据管理层包括会话管理模块和数据管理模块。会话管理模块对用户的检索行为进行有效地管理,可以将用户的操作以及检索信息储存起来,系统根据用户的检索行为获取用户的检索目的,从而有效地引导用户进行精确检索。数据管理模块主要通过先进的技术对检索用户的搜索内容进行分析,从而将用户可能需要的大数据信息进行提前载入,从而节约用户检索过程中所耗费的I/O成本〔3〕

种群的规模定义为SCALE,检索目的数量定义为M,大数据检索资源的数量定义为BIGDATA,初始化操作如下所示:通过系统任意形成SCALE个染色体,基因的取值取0和1之间的任意数。

3)适应度函数

改革开放以来,中国经济发展突飞猛进,各行各业的精英抓住机会,在行业腾飞的同时实现了自我发展。农资行业经过多年的高速增长,已经进入全面整合的竞争阶段。在这场空前的市场历练中,盐湖股份也在逐步调整自己迈向市场的稳健步伐。

设有SEARCH个检索用户,BIGDATA个大数据资源,第t个检索用户所需要的大数据资源数量为BIGDATANUM(t),则检索用户所需要检索的大数据资源量为SEARCHNUM,有如下的式子成立〔4〕

借助通用软件,将抽象、乏味的原理用形象的动画直观展示,方便理解。如讲解“点动控制电路原理”时,电路用蓝色表示断开无电流,用红色表示接通有电流,通过四张PPT幻灯片演示动画效果,第1张:断路器断开状态,控制电路、主电路均用蓝色表示;第2张:断路器由断开转换为闭合状态,按下按钮,控制电路用红色表示接通;第3张:接触器线圈得电后连动其主触头吸合,主电路用红色表示接通,带动电机转动;第4张:松开按钮,控制电路、主电路均用蓝色表示断开。演示中,通过对元器件的断开、闭合操作,引起电流无、有的变化,能更好地理解控制电路原理。

随着信息技术的发展,越来越多的信息技术手段被运用到课堂教学中,教师应当认识到信息技术技术的价值,并将其与英语教学结合到一起。如教师可以将微课、多媒体课件引入课堂,让阅读内容可以以视频、动画、音频等多种形式展示出来,声音与画面可以极大地刺激学生的感官,激发学生的思维,加深他们对阅读内容的印象。例如在《China and the world》这一课的教学中,教师可以为学生展示中国与外国不同风土文化的图片与视频,让学生可以在对比的过程中了解世界文化与中国文化的差异,深入感悟文章内容。

SEARCHNUM=BIGDATANUM(t)

(1)

假设有四个检索用户,并且有4个大数据检索资源,每个检索用户有若干个检索目的。

院中东西厢房均为面阔两间,进深一间的石木结构房屋,在横梁之上承托驼峰,上架木椽,构成单坡顶,屋面用板瓦。西厢房保存较好,门上保留有清晰的刻有“招财进宝”、“和气生财”的石刻门额,木梁、椽子等建筑构件保存完整。东厢房墙体倒塌较严重,但木梁架仍保存较完整,周家粮铺院南立面图如图所示(图18)。东厢房即是院落中的粮食存储处,在上院院中晾晒粮食后,存放于东厢房中,当下院粮仓储量不足时,通过“滑道”将粮食滑下,进行补充。

然后对染色体进行解码,进而获得大数据资源上检索目的分布情况。生成以大数据检索资源进行编号的检索目的序列,将以上的染色体进行解码可以得到:

波纹管的波纹结构有采用2个不同圆弧段和分别采用圆弧段、平直段2种方式。目前应用较多的是圆弧段与平直段相接的方式。文中即模拟圆弧与平直段相接的波纹管,并认为圆管内充满流动的流体,具体物理模型如图1所示。模型长度为180mm,直径为20mm。流体由左侧流入波纹管,由于流动为单相流动,不考虑重力对流动的影响。

W1:{3,5,6} W2:{1,4,8} W3:{2,9,11} W4:{7,10,12}

根据解码后的序列与ETC矩阵求解出在不同的大数据资源上进行大数据检索所消耗的时间,其中ETC(i,j)矩阵表示第i个检索目的在第j个大数据检索资源上操作所需要的时间,完成全部检索任务所需的时间可以通过如下的公式进行计算〔4〕

社会合作方,优选PPP项目运营经验丰富的国企、央企和实力较强的民营企业。高度关注 PPP 项目建成风险和运营维护风险,对于属于“跨界经营”的社会合作方,应有社会资本方提供连带责任担保、抵质押担保,或提供强约束的差额补足、流动性支持等。

 

(2)

式中,BIGDATA(w,i)表示第w个大数据资源上所服务的第i个检索目的所消耗的时间,n表示在该大数据资源上所实现的检索目地的数量。

利用解码后的序列和ETC矩阵能够求出完成第t个检索目的所需要的时间,计算表达式如下所示:

 

(3)

式中,k表示第i个搜索目的在被分配至大数据资源的位置,W(j,i)表示搜索目的i在大数据资源上进行操作所需要消耗的时间。

2)遗传算法种群的初始化

在承包方施工现场造价管理过程中,工程量清单对于施工方案数量、招标文件信息的记录是非常重要的一个方面,也是竞标公平性的保障。因此在承包方工程造价控制环节,应将列表定价信息、投标文件信息统一规划。依据造价编制依据及各分部项目分配理念进行相关注释的记录。需要注意的是,工程投标阶段合理的出价非常重要。而为了保证出价的合理性,相关工程项目承包人员需要综合考虑各方面因素,进行预算的合理编制。同时清除不合理报价,保证承包方中标概率。

 

(4)

实现用户检索所用的平均时间可以利用如下的公式进行计算:

1)染色体的编码和解码

染色体的编码可以采用直接编码和间接编码的方式。染色体的长度为检索用户的数量,染色体中的基因数值为该位置号对应的染色体检索的大数据信息编号。

大数据搜索的目的就是在最短的时间内检索到有用的信息,同时也应该考虑完成搜索任务所需要的平均时间,因此,定义了两个适应度函数〔5〕

 

(5)

f2(i)=T2(x)

(6)

式中,Wj表示第i个个体中第j个大数据资源,SCDi(Wj)表示第i个个体完成搜索任务所需要的时间。

3 基于改进遗传算法的大数据智能搜索流程

通过改进的遗传算法能够有效地提高用户的搜索效率,相应的流程如下所示:

步骤1:按照用户的搜索需求从大数据库中获得与用户所输入关键词有关的资源,并且将其作为初始化种群,显示给用户。

步骤2:检索用户依据自身的需求,从所获得的文档中选出最有用的文件。

步骤3:大数据检索系统将评价值最高的文档作为优选,同时利用遗传算法进行迭代计算,通过交叉和变异操作能够获得和用户需求接近的文档,并将该文档反馈给用户〔6〕

步骤4:当反馈给用户的文档符合要求时,终止算法;否则,返回步骤2。

利用遗传算法使用户有效地参与到大数据搜索中,从而使用户获得所需要的检索资源,进而确保搜索的有效性。

4 仿真分析

为了验证改进遗传算法在大数据智能搜索的有效性,以某证券公司的交易数据为对象进行仿真分析,同时利用基于传统遗传算法的大数据搜索算法进行仿真分析。证券公司的主要数据包括:开盘价、最高价、最低价、收盘价、成交额、涨跌额、涨跌幅等,仿真分析结果见表1。

 

1 证券公司大数据搜索引擎仿真结果

  

参数基于传统遗传算法的大数据搜索算法基于改进遗传算法的大数据搜索算法搜索耗时/ms8646搜索准确度/%75%92%

从表1可以看出,基于改进的遗传算法能够提高大数据搜索效率,耗时比基于传统遗传算法的大数据搜索算法少用了40ms。基于改进遗传算法的大数据搜索算法能够提高搜索的准确度,准确度比基于传统遗传算法的大数据搜索算法提高了17%。

5 结论

大数据搜索已经成为了金融、公安等部分的热点问题。大数据的搜索系统应该掌握用户的检索需求,能够确定上、下文的内涵以及实现用户所要检索信息的扩展和智能处理,为了实现这一功能,将改进遗传算法融合到了大数据搜索引擎中。通过仿真分析结果可以看出,基于改进遗传算法的大数据搜索算法能够有效地提高大数据搜索效率和搜索精度。

参考文献

〔1〕王勇, 董恒新. 大数据背景下中国季度失业率的预测研究—基于网络搜索数据的分析〔J〕. 系统科学与数学, 2017, (2):460-472.

〔2〕周永红, 吴芳. 大数据时代搜索引擎用户的信息安全问题研究〔J〕. 图书馆, 2017, (5):32-35,57.

〔3〕曾子明, 周知. 大数据环境下面向科研用户的移动视觉搜索模型研究〔J〕. 情报理论与实践, 2017, (8):126-130,98.

〔4〕孙彩堂, 李玲, 王雪, 等. 改进遗传算法的CSAMT一维反演〔J〕. 湖南大学学报:自然科学版, 2017, (4):102-108.

〔5〕孙守军, 孙恒, 刘楚茹, 等. 改进遗传算法在天然气液化工艺流程优化中的应用〔J〕. 低温与超导, 2017, (6):9-14.

〔6〕魏子凡, 井升平, 杨松林. 基于改进遗传算法的新型水面无人艇性能综合优化分析〔J〕. 江苏科技大学学报:自然科学版, 2017, (1):6-11.

 
林志鸿
《辽宁科技学院学报》2018年第01期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号