更全的杂志信息网

基于Q学习的配电异构无线网络选择算法

更新时间:2009-03-28

配电网覆盖范围广,设备数量大,业务类型复杂,QoS需求不尽相同,对通信技术的要求也不断提高,传统单一的光纤通信已经不能满足智能配电通信的要求,因此在一些光纤铺设和维护困难的地区,就需要电力无线专网来进行覆盖,确保电力通信的安全可靠[1]。但电力无线专网通信也存在一些问题:一方面,电力无线专网的建设缺乏统一标准,导致采用不同技术的无线专网共存;另一方面,对于通信需求复杂多样,单一类型的无线网络无法满足通信需求的地区,需要不同的网络相互补充才能实现电力无线通信专网的高速率无缝覆盖,减少业务的延迟、阻塞,保障电网可靠、安全、高效的运行。这将导致电力无线通信网的多网融合问题,使得多个网络覆盖范围内配用电终端面临最优网络的选择接入问题。而用户网络的选择必将涉及到多个决策因素,接入终端根据自身的业务需求和网络的实时性能状况,选择最好的网络[2]

针对网络的接入选择问题,前人提出了大量的解决办法。文献[3]提出了一种高可用带宽优先接入的接入选择算法,同时考虑了信干噪比对接入的影响,但没有考虑网络资源的实时变化和安全性的影响,可能会造成的资源浪费。文献[4]提出了一种基于博弈论的接入控制算法,但该算法的纳什均衡点的存在性和唯一性不能得到保证。文献[5-6]在网络选择过程中考虑了多种性能参数,将接收信号强度、可用带宽、安全性、网络成本和功耗等考虑到了网络选择决策中,但这种算法只考虑了当前的网络状态而忽略了接入网络后的网络条件。文献[7]提出了一种基于马尔可夫模型的无线网络选择算法,采用马尔可夫模型预测网络选择之后的收益值,但其网络中的转移概率需要估算,且只考虑了带宽一个参数,不具代表性。

针对以上算法存在的缺陷,本文提出了一种基于Q学习(Q-Learning)的接入控制算法,该算法考虑了配电业务接入网络后的服务水平,新业务动态地根据当前和未来的网络状态选择网络进行接入,保证了配电通信的高效性和可靠性。

1 算法概述

在异构无线网中用户的接入选择行为,即决策,只与当前时刻的网络环境和用户本身的状态有关,而下一时刻的用户状态只取决于当前时刻的决策,这是典型的马尔可夫决策过程。

1.1 Q学习

一个标准的马尔可夫过程的建模一般通过四元组(S,A,R,P)进行,即环境状态空间S,行为空间A,回报值R和转移概率P。马尔可夫决策问题的目标是找到一个策略 π:S→A,使其最大化回报值 r(s,a)的长期累计值的数学期望:

支付方式:蒙牛此次收购属于出资购买股票式收购,交易金额为124亿港元,约为人民币98亿元。在本次收购中,雅士利的股东可以以手中的每股股票获得现金支付,或者可选择部分现金加上部分蒙牛国际的股票。

 

其中,st是t时刻的环境状态,at是t时刻的行为,γ∈[s,a)是折扣因子,用于确定延迟回报与立即回报的相对比例。根据Bellman最优准则,得到最优策略π*对应的最优指标为[8]

 

其中,R(s,a)为 r(st,at)的数学期望,Ps,a(s′)为状态s在动作a后转移到s′的概率。异构网络中的转移概率不容易获得,而Q学习不需要转移概率的信息,因而本文采取Q学习的方法解决此马尔可夫决策问题。

动作接入行为,用a表示,集合 A={a,a∈{1,2,…,N}}表示所有可能动作的集合。a=N表示终端接入网络N。

 

则最优策略π对应的Q值定义为:

 

使用式(5)代入式(4)进行迭代得到如式(6)所示迭代规则:

 

Q学习算法利用式(6),通过获得状态和奖励并在每个时间t选择动作来递归地学习最佳Q值,式中a∈(0,1)是学习速率。已经证明,如果每个状态对被访问无数次,并且学习率a减小到零,则Qt(s,a)以概率 1收敛到 Q*(s,a)[9]。标准的 Q学习算法流程如下:

(1)建立一个Q值表,初始化每一个状态-动作对对应的Q值Q(s,a)=0。

(2)判断Q值表是否收敛。若收敛,算法完成,退出程序;若未收敛,则按如下步骤进行:

①观察当前时刻状态st

【短发女孩】又想起你了,在这繁重的高中生活里。也许是你的容颜让我一次次放弃“放弃”这个念头,让我努力前行。遇到你之前,我不懂得喜欢是什么,直到遇见你,我才知道,原来喜欢一个人,就是有一种莫名的力量让你变得更好,让你坚持,不放弃。呼,听说你很羡慕学霸?好,那我便为你成为学霸!成为段1!希望到那时,我可以十分优雅地走到你面前:“Hey!Girl,春风十里不及你!”(139****1597)

②根据当前st和策略选择动作at

③ 执行动作 at,获取立即回报 r(st,at);

(4)更新 Q值,重复步骤(2)至步骤(4)。

Q学习通过对环境的不断感知,积累历史经验,经过不断地试错和不断地强化,学习主体可以自主地选择最佳的动作目标。该算法中动作与环境相互影响,环境既可以通过强化信号来反馈动作的优劣性,动作也可以影响环境变化。

上述的Q学习算法是在当前解临近最优解的空间中选取的,当算法找到一个局部最优解即停止搜索,可能不能尝试到全局最优解,为了解决这个问题,可以采用softmax选择策略,softmax策略考虑到每个状态动作对访问次数与算法收敛速度之间的均衡,以概率 P(s,a)(如式(7)所示)随机地选择动作,以便于增加最优解的搜索范围,找到全局最优解。softmax是增强学习中解决探索困境的重要手段之一[10]

 

softmax策略中对状态-动作对的探索是由参数τ控制的,τ是温度系数,温度系数越小,不同Q值导致的选择概率的差异就越大(Q值越大选择相应网络的概率就越高);温度系数越大,动作的选择就越不受Q值影响,所有动作就越会以近乎相等的概率被选择。

1.2 基于Q学习的网络选择算法

由于不同的接入网络采取的安全技术不同,安全性存在固有差别,安全性回报记做Us可以看作固定的值,如式(12)所示。

 

其中,R(s,a)是选择网络得到的立即回报结果,转化到下一个状态后的最大的 Q值。本算法中,对每个状态动作对都设置一个学习率,定义如式(9)所示,以便每个状态动作对都能进行足够多的访问。其中的β(s,a)是状态动作对的访问次数。

 

综合上述内容,本算法的具体流程如图1所示。

课后,学生深化对课堂知识的应用,通过超星学习通浏览教师上传的拓展知识或者资料,个性化学习,教师提供课下的在线指导、资源和点评。

为了使算法快速收敛,如式(10)所示,本文是用对数冷却来改变式(7)中的 t值[12],其中 t0是初始温度,t是UE进行第一次选择以来经过的时间。

 

2 问题映射

依据Q学习理论,本文对系统状态、动作和回报函数定义如下。

2.1 系统状态

为了将状态空间减少到有限集合,将可用带宽映射到一组量化值。本文的系统状态表示为S=(p,ww,wl),其中,p表示请求会话的业务类型,配电终端通信业务记为1,视频监控业务记为2;ww代表WLAN的可用带宽;wl代表LTE的可用带宽。ww和wl都是量化后的离散值,将全部传输带宽均匀量化成4个等级。具体量化区间如表1所示,其中AB代表网络的可用带宽。

 

表1 可用带宽量化区间

  

可用带宽 0~( )111 4 AB ( )1 42 AB ( )3 24 AB ( )3 4~1 AB量化等级(ww/wl)1234

2.2 动作选择

Q学习是强化学习中的一种与环境模型无关的算法,Q学习中每一个状态-动作对都对应于一个Q值 Q(s,a),Q(s,a)中保存了在状态 s时采取动作 a的累计回报值。对于策略π:S→A,Q值的定义为:

2.3 回报函数

(3)在执行动作后记录立即回报值和下一状态。

速率回报记作UR,UR的取值由式(11)决定,其中R now为分配给用户的传输速率,R max代表用户需要的最大速率,R min代表终端需要的最小速率。

 

多种无线接入网络共存时,系统中的网络控制模块允许或拒绝会话接入某个网络以达到资源优化配置的过程,称为联合资源控制(Joint Call Admission Control,JCAC),JCAC是联合无线资源管理(Joint Radio Resource Management,JRRM)的重要组成部分[11]。JCAC集中管理接入网络的状态、终端状态、业务需求等信息,综合各类信息写入Q(s,a)表中,然后根据经验记录值为终端选择合适的网络接入,同时在每个决策时刻根据下式更新自己的Q值:

 

系统回报函数是评价指标的加权和,如式(13)所示,w1、w2为加权系数,由于不同的业务对带宽和安全性的要求有所差别,加权系数也有所不同。

 

3 算法流程

选择网络时,将已知Q(s,a)应用于一个softmax选择策略中。这样,网络利用式(7)以概率P(s,a)随机地选择网络:

从小米出生起,机器人阿姆就负责照料她的生活起居。日久生情,小米对阿姆产生了很强的依恋,因此当同龄人换了一款又一款机器人时,她仍旧不肯换掉阿姆。

  

图1 Q学习网络选择算法流程图

(1)初始化:用随机数初始化Q值表,同时初始化状态动作对的访问次数 β(s,a)、折扣率 γ、初始温度t0,收敛判定条件ε。

(2)在每个新呼叫到达时:

①观察到达时刻系统的状态st

② 如果 ΔQ(s,a)>ε,在动作集中利用式(7)根据概率选择动作 at;如果 ΔQ(s,a)<ε,收敛条件满足,选取Q值最大的动作。

进行网络选择时,本文考虑的评价指标包括网络对用户速率要求的满足情况和网络安全性两个方面。

④ 观察新状态st+1,并更新Q值表。

注:ΔQ(s,a)(s∈S,a∈A)为 Q值更新前后的差值。

4 仿真结果与分析

本文考虑的城市热点地区有WLAN网络热点覆盖,且LTE1800已实现广域覆盖;终端为多模终端,可以选择两种网络中的一个网络接入;且位置固定,始终在两个网络的覆盖范围内。LTE中,每个用户的带宽和时延都是有保证的,网络为每个用户提供专用带宽,后续其他用户的接入不会影响其对此用户的服务性能;而IEEE802.11无线局域网中,用户数目的增多会降低用户体验。

本文假设LTE网络的上行链路吞吐量为5 Mbit/s。WLAN基于 IEEE802.11b,提供最大吞吐量为9 Mbit/s。选取智能配电终端和视频通信两种代表性的配电业务进行算法的验证,其中智能配电终端的安全性需求高于视频监控业务,而视频监控业务的带宽需求远远大于智能配电终端。假设每个视频监控业务需分配1~2 Mbit/s,智能配电终端通信业务需分配50~100 kbit/s。业务以到达率λ为2~6的泊松分布到达重合覆盖区域,且两种业务均匀分布。

仿真主要对比两种不同回报函数的Q学习算法:考虑带宽和安全性回报的Q学习算法(记为safeQ),只考虑网络提供带宽而不考虑安全性的Q算法(记为,bandonlyQ),以期证明本文的safeQ算法在考虑安全性时不会影响系统的阻塞率。

凯迪拉克是程晓的梦想,它让程晓饱受他人羡慕,也让自己尝尽生活的苦头,然而最昏暗的日子已经过去,有梦想的程晓现在已经有钱,有房,有爱情。想想当初,买凯迪拉克的虚荣和荒唐,开凯迪拉克吃泡面的落魄,现在的程晓不禁淡然一笑:“开凯迪拉克的穷人,不会是永远的穷人。如果你想翻墙,请先把帽子扔过去。因为你的帽子在那边,你已别无选择,便会想方设法翻过去。”

由前面市场需求定义和式(8)知道,市场风险e和购电商损失规避度λ直接影响最优购电量q*。如果令λ=1,式(8)化为这就是风险中性购电商的最优购电量。

配电终端主要包括柱上开关、环网柜及开闭所等开关控制设施。通信带宽需求方面,开关站的单节点通信速率要求为6~30 kbit/s,环网柜和箱式变压器单点速率要求1.8~5.0 kbit/s,柱上开关和柱上变压器单点速率要求为1.8~5.0 kbit/s;一般64 kbit/s可满足配电终端通信要求,速率要求较低。由于配电终端业务主要传送的是三遥信息,处于生产控制大区,直接服务于生产调度,对安全防护等级要求较高。配电视频监控业务位于管理信息大区,安全性等级要求不及配电终端通信业务高;带宽要求比较大,一般为几兆比特每秒。基于两种业务的上述通信要求,人为地选择加权系数,safeQ的两种业务的回报函数的加权系数如表2所示。

现场取回的黑粉在进一步测试前密封保存。黑粉微观观察采用Quanta 200F场发射电子扫描显微镜,并借助EDAX Genesis 2000 X-射线能谱仪 (EDS)测定元素组成。采用XRD-6000型X射线衍射仪对黑粉的物相组成进行测试,利用 Malvern Mastersizer 3000对黑粉粒径进行测试,测试前用研磨钵将黑粉研磨成细粉。

 

表2 回报函数加权系数

  

业务类型 w1 w 2配电终端通信0.1 0.9视频监控0.6 0.4

图2是到达率λ为3.5时业务阻塞率随业务仿真个数增加的变化情况,在仿真个数到达400次左右时,视频监控业务的阻塞率已近似收敛于0.4,且阻塞率在开始的高阻塞率过后逐渐下降,证明了Q学习的选择过程可以使网络选择逐渐趋于最优值。配电终端通信业务因其带宽要求比较低,一直没有被阻塞。

Chromatographic conditions were as follows:columns,Agilent Extend C18(4.6 mm × 250 mm,5 μm);mobile phase,methanol∶0.4%acetic acid(25∶75);detection wavelength,340 nm;column temperature,40℃;flow rate,1.0 mL/min;injection volume,10 μL.

  

图2 不同业务阻塞率

图3是safeQ、bandonlyQ和随机接入选择算法的阻塞率对比。结果表明,safeQ在考虑了安全性的同时,具有与bandonlyQ相同、甚至略低的阻塞率。不同到达率下两种Q算法比随机选择算法的阻塞率低了0.15左右,效果明显。

染色过程:黑色,将嫩枫叶捣烂,稍微风干后加水浸泡,24 h后取出叶渣、滤净,将滤液放入锅中煮至50~60℃。再将糯米浸入其中,边搅拌边观察糯米颜色,待糯米染上黑色后将其捞出滤水。在染色过程中,若水温过高,糯米难以染成黑色,若染液浓度不足,易染成灰色或紫色;黄色,将姜黄拍碎,煮水过滤取汁,浸泡生糯米数小时即可;红色染色方法同黑色染色类似。

肋骨骨折患者因为骨折疼痛会引起患者的呼吸道分泌物增加,不易排出和肺部感染症状。如果肋骨骨折断端指向体内,还会对胸膜、血管、肺组织造成损伤,引起血气胸。有多根肋骨骨折时,患者呼吸反常,可能是呼吸衰竭和循环衰竭,严重患者还会有生命危险[4]。当发生肋骨骨折后,患者需要及时的接受处理,减轻的患者的疼痛,让患者的呼吸道通畅,预防并发症出现[5]。最重要的就是对胸廓进行固定,临床中有内固定和外固定两类,都是以限制肋骨断端的活动,减轻患者的疼痛。

解析:本题考查了透镜的成像光路图。对于凸透镜,入射光线平行于主光轴,则经凸透镜折射后将过焦点;通过焦点的光线经凸透镜折射后将平行于主光轴;过光心的光线经凸透镜折射后传播方向不改变。

就炉排横向配风情况对燃烧的影响而言,炉排横向配风不均匀系数ηQ反映沿炉排宽度方向(横向)风量分配不均匀性,即

  

图3 不同到达率下业务阻塞率

图4 、图5为使用safeQ算法和bandonlyQ算法时,不同业务接入两种网络的百分比。很明显,由于safeQ兼顾了安全性需求,对安全性要求较高的配电终端通信业务接入LTE网络的比例要高得多,相对于bandonlyQ,safeQ算法中视频监控业务接入LTE的比例也有所增加,但由于系数设置原因,视频业务安全性要求的重要性不及带宽需求,所以视频业务仍更倾向于接入带宽更优的WLAN网络。

  

图4 本算法网络选择百分比

  

图5 bandonlyQ网络选择百分比

5 结束语

本文根据配电通信业务的特点,提出了一种考虑带宽和安全性的Q学习算法,通过不断地获得回报更新Q值,为到达的新业务选取合适的接入网络。仿真结果表明,safeQ可以很好地满足不同配电通信业务对带宽和安全性的不同需求,在降低业务阻塞率方面也有很好的表现。本算法可以根据不同的业务需求选择网络,并可以根据与环境交互信息改变选择决策,是一种灵活的网络选择方法,适合越来越复杂的面向能源互联网的无线专网的业务。

参考文献:

[1]唐良瑞,盛洁,祁兵,等.面向智能配电的异构融合通信网络动态负载均衡[J].中国电机工程学报,2013,33(1):39-49.TANG Liangrui,SHENG Jie,QIBing,et al.Dynamic load balancing in heterogeneous integrated communication networks oriented to smart distribution grid[J].Proceedings of the CSEE,2013,33(1):39-49.(in Chinese)

[2]张媛媛,肖创柏,王坚.一种新的面向用户多业务QoS需求的网络接入选择算法[J].计算机科学,2015,42(3):55-59.ZHANG Yuanyuan,XIAO Chuangbai,WANG Jian.New method for user’s QoS requirement network selection in heterogeneous wireless networks[J].Computer Science,2015,42(3):55-59.(in Chinese)

[3]GUO C,GUO Z,ZHANGQ,etal.A seamless and proactive end-to-end mobility solution for roaming across heterogeneouswireless networks[J].IEEE Journal on Selected Areas in Communications,2004,22(5):834-848.

[4]李明欣,陈山枝,谢东亮,等.异构无线网络中基于非合作博弈论的资源分配和接入控制[J].软件学报,2010,21(8):2037-2049.LIMingxin,CHEN Shanzhi,XIE Dongliang,et al.Resource allocation and admission control based on non-cooperation game in heterogeneous wireless networks[J].Journal of Software,2010,21(8):2037-2049.(in Chinese)

[5]BAKMAZB,BOJKOVIC Z,BAKMAZM.Network selection algorithm for heterogeneous wireless environment[C]∥IEEE International Symposium on Personal,Indoor and Mobile Radio Communications.2007:1-4.

[6]BARIF,LEUNG V CM.Automated network selection in a heterogeneouswireless network environment[J].IEEENetwork,2007,21(1):34-40.

[7]汤奕,赵琳,宋卓然,等.基于马尔可夫模型的配电异构无线网络选择算法[J].现代电力,2013,30(6):84-87.TANG Yi,ZHAO Lin,SONG Zhuoran,et al.Heterogeneous wireless network selection algorithm for smart distribution grid based Markov model[J].Modern Electric Power,2013,30(6):84-87.(in Chinese)

[8] PUTERMAN M L.Markov Decision Processes:Discrete Stochastic Dynamic Programming[M].New York:John Wiley&Sons,1994.

[9]WATKINSC JCH,DAYAN P.Technical note:Q-learning[J].Machine Learning,1992,8(3/4):279-292.

[10]SUTTON R S,BARTO A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998:216-224.

[11]YU F,KRISHNAMURTHY V.Optimal joint session admission control in integrated WLAN and CDMA cellular networks with vertical handoff[J].IEEE Transactions on Mobile Computing,2006,6(1):126-139.

[12]PÉEREZ R J,SÁNCHEZG J,AGUSTÍR,et al.Power-efficient resource allocation in a heterogeneous network with cellular and D2D capabilities[J].IEEE Transactions on Vehicular Technology,2016,65(11):9272-9286.

 
张佳立,尼俊红
《南京邮电大学学报(自然科学版)》2018年第02期文献

服务严谨可靠 7×14小时在线支持 支持宝特邀商家 不满意退款

本站非杂志社官网,上千家国家级期刊、省级期刊、北大核心、南大核心、专业的职称论文发表网站。
职称论文发表、杂志论文发表、期刊征稿、期刊投稿,论文发表指导正规机构。是您首选最可靠,最快速的期刊论文发表网站。
免责声明:本网站部分资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有
如有不愿意被转载的情况,请通知我们删除已转载的信息 粤ICP备2023046998号