快捷分类

基于深度强化学习DDPG算法的投资组合管理

更新时间：2009-03-28

0 引言

投资组合管理是将一定资金分配给多个金融资产的决策过程，通过不断改变分配权重来提高收益，减小风险[1]。已经有学者从理论方面对投资组合优化进行了详尽的研究[2-3]，但是由于金融资产价格难以预测，交易数据体量庞大，并具有严重非线性，在实践中仅靠人脑难以做出最优决策。然而随着人工智能技术的发展，利用计算机进行自我学习和大量计算，并实现优化的投资组合管理已经成为可能。自从击败人类顶尖围棋高手的AlphaGo问世以来，深度强化学习[4]成为人工智能领域的研究热点，这种技术被应用于包括金融等多个领域，展现出强大的实力，因此深度强化学习在金融领域有很广阔的应用前景。

深度学习[5]和强化学习[6]都是人工智能的重要分支，深度学习是指采用深度神经网络进行学习的方法，对于求解复杂的非线性问题具有较大优势；强化学习则是与监督学习和无监督学习对等的学习模式，善于求解复杂的优化决策问题。这2种方法都可以单独应用于金融领域。

目前深度学习和强化学习在金融领域的研究主要集中在预测单个资产价格趋势，例如Selvin等人[7]使用LSTM(Long Short Term Memory Network), RNN(Recurrent Neural Network)和CNN(Convolutional Neural Network)这3种不同的深度学习网络对一组上市公司的价格进行预测并比较它们的表现，采用滑动窗口方法，预测短期内的价值；Khare等人[8]对比了多层前馈神经网络和LSTM应用于股票价格预测的效果，发现多层前馈神经网络预测精度优于LSTM；曾志平等人[9]提出了基于深度信念网络对短期内金融资产价格的涨跌进行预测，准确率较高；李文鹏等人[10]构建3层深度神经网络模型对股票价格趋势进行预测，获得了较高的正确率。为了对2个资产进行配对交易，胡文伟等人[11]提出了结合Sarsa强化学习方法和自适应模式动态参数优化方法的配对交易策略，提升了交易系统的获利能力并降低回撤风险。Li等人[12]使用中国股市2008-2015年的历史数据，通过SVM和LSTM预测股价趋势，实验结果表明LSTM要优于SVM。孙瑞奇[13]采用BP(Back Propagation)神经网络、RNN和LSTM，预测标普500指数在2013年3月-2015年9月的收盘价，与BP神经网络相比，RNN由于考虑了时间序列的时序关系的影响，预测精度比BP神经网络高，而LSTM是在RNN基础上改进的，因此预测精度更高。然而在投资组合交易决策方面，深度学习和强化学习方法的研究尚有空白。

深度强化学习是一种将深度学习与强化学习结合的方法，由Google的DeepMind团队于2015年首次提出并应用于游戏[14-15]，近年来，已经有学者将深度强化学习应用于金融领域。例如，Deng等人[16]将其应用于单个金融资产的交易，使用深度学习网络对市场状态进行学习，使用强化学习做出交易决策，并在股票和期货市场得到了验证。Jiang等人[17]采用深度确定性策略梯度DDPG算法进行虚拟货币交易，并获得极高收益。Zhang等人[18]采用DDPG方法，通过判断最佳股票并投入绝大多数资金的方式，获得较高收益。这些研究仍是集中于单个金融资产的交易，或者虽然针对多个金融资产[17-18]，但是将投资权重几乎全部集中在一个金融资产上，更类似于每次从几种金融资产中择优下注，而非投资组合管理。

综上所述，目前还没有学者将深度强化学习技术应用于中国股票市场的投资组合管理。本文首次将深度强化学习的DDPG算法进行改进，使之能够应用于投资组合管理问题。通过限制投资组合中单个风险资产所占的总资金量的权重，达到分散风险的目的，并采用丢弃算法(Dropout)[19]，即在训练模型时随机丢弃一些节点的方法，解决过拟合的问题，提高投资效益。本文实验以中国股票市场为例，选取16只中证100指数成分股作为风险资产，实验结果表明本文基于深度强化学习构建的投资组合，2年累计价值增幅达到65%，显著高于其对照组，表明本文的方法是非常有效的。而且通过进一步实验，表明当用于训练的数据距离实际测试的时间越近，则本文构建的投资组合表现越好。

1 深度学习与强化学习概述

1.1 深度学习

深度学习是一种利用多层非线性变换处理网络结构来进行表征学习的通用框架。得益于计算机性能的提升，深度学习大大提升了人工神经网络方法的有效性，是近年来人工智能领域的重要方法。

1)过拟合。

深度学习的概念由加拿大多伦多大学的Hinton等人[20]于2006年提出，基于深度信念网络DBN(Deep Belief Network)提出无监督逐层预训练和有监督调优算法，可以自动学习数据特征并对学习结果进行有效的优化，解决了深层神经网络结构容易出现局部最优解的问题以及需要人工设计数据特征的问题。后来，Hinton又提出了Dropout方法解决神经网络过拟合问题[19]。之后深度学习快速发展，并且在语音、图像、医疗、金融等领域应用广泛。

宋榕华....................................................................................................................................................................科莱恩大中华区可持续发展及管理事务总监

投资组合管理是指通过不断改变资金在金融资产上的分配权重，从而最大限度提高回报率并降低风险的过程。在投资组合管理中，各项资产的权重是连续的变量，需要通过深度强化学习网络进行自我学习和大量计算，在实现总收益最大化的目标下，在每个交易时刻之前输出一次最优权重，并通过自动交易将投资组合各项资产的比例调整到最优权重，从而实现优化的投资组合管理。

1.2 强化学习

强化学习，又称为增强学习或再励学习。强化学习的主体是智能体，其主要思想是智能体与环境交互和试错，利用评价性的反馈信号实现决策的优化。当智能体的某个动作导致环境正的奖赏或回报，即为强化信号，则智能体以后产生这个动作的趋势便会加强；反之，智能体产生这个动作的趋势会减弱[21]。强化学习主要有4个要素，即策略、回报、动作和环境。强化学习的目标是学习一个策略，使得智能体选择的动作能够获得环境最大的回报。回报可以用一个函数来计算，又称为回报函数。为了衡量强化学习的长期效果，通常用值函数(value function)来代替回报函数，不仅衡量动作的即时回报，还衡量从该状态起随后一系列可能的状态所累积的回报。

经典的强化学习方法往往无法解决状态和动作空间维度很高的问题，一个有效的解决方法是使用函数近似，即将值函数或者策略用一个函数来表示。常用的近似函数有线性函数、核函数、神经网络等。近年来最成功的函数近似方法就是使用深度神经网络作为强化学习的非线性近似函数[22]，将深度学习和强化学习相结合，即为深度强化学习。深度强化学习由DeepMind团队于2015年首次提出之后，将其发展并分别应用于打败人类围棋冠军的AlphaGo[23]和更强的AlphaGo Zero[24]。然而这时的深度学习技术DQN(Deep Q-Learning)依然解决的是离散动作的问题，无法直接应用于权重连续的投资组合管理。DeepMind团队于2016年提出的深度确定性策略梯度方法即DDPG算法[25]，解决了连续动作空间的强化学习问题。DDPG算法是一种无模型的离策略Actor-Critic强化学习方法，利用深度神经网络来学习连续动作空间的策略，DDPG算法中，策略是参数化的，通过策略梯度方法，直接优化深度神经网络的参数。

2 问题描述与模型表示

深度学习常见的网络结构包括深度神经网络DNN(Deep Neural Networks)、深度信念网络DBN、卷积神经网络CNN、循环神经网络RNN、LSTM等。

2.1 模型假设

在现实中，金融市场运行情况较为复杂，例如较大的资金量可能会对市场价格产生影响，交易成本不一定与交易额成正比，投资者可能无法恰好以收盘价买入或卖出股票，以及投资者可能不能购买非整股股票。但为了适当简化复杂的投资组合管理问题，本文作出以下假设：

假设1 交易资金量足够小，以至于不会对市场中其他投资者行为以及金融资产价格造成影响。

假设2 交易成本为当日交易额的固定比例。

假设3 交易过程中能够将收盘价作为股票交易的成交价格。

假设4 投资者能按照最优的资金分配权重购买任意数量的股票，包括购买股票数可以为非整数。

2.2 投资组合的资产组成

设yt为用向量表示的投资组合各项资产在区间[t-1, t]上的投资收益率，将之称为收益向量，具体表示如下：

2.3 投资组合的资产权重与收益

本文的投资组合由N+1种金融资产组成，分别包括N项风险资产和一种货币(人民币)。之所以将货币作为投资组合中的一种资产，是为了方便深度强化学习的网络进行计算，投资组合的总权重被设为1，这时如果组合中仅包括风险资产，就会使得在市场表现不佳时，投资者也需全仓持有风险资产，使得收益率降低，且增加风险。而将货币作为投资组合中的一种资产，则当市场表现不佳时，可以仅持有货币，即相当于不持有风险资产。

其中，第一个分向量表示货币的收益率，收益率之所以为1，是因为仅持有货币不能获得额外收益，货币价值从始至终保持不变。向量中Vi,t,close表示投资组合中第i项风险资产在t时刻的收盘价，Vi,t-1,close表示投资组合中第i项风险资产在t-1时刻的收盘价，其中i=1,2,…,N，因此就表示第i项资产在区间[t-1,t]上的投资收益率。

设pt为投资组合在t时刻减去交易成本之后的总价值，pt-1为投资组合在t-1时刻减去交易成本之后的总价值，p0为投资组合的初始价值，为投资组合在t时刻未减去交易成本时的总价值。设rt为投资组合在t时刻的收益率，即：

(1)

设Rt为投资组合在t时刻的累计总收益率，即：

(2)

用wt表示投资组合各项资产在[t-1,t]时刻所占的权重，将之称为权重向量，具体表示如下：

wt=[w1t,w2t,w3t,…,w(N+1)t]

③不断完善取水许可制度体系，加强重要规划和重点项目水资源论证，以水资源条件确定规划和项目内容、规模和布局；调整取水许可管理权限，提高准入门槛，将原来由县级水行政主管部门审批的地下水机井取水许可权上收到市级水行政主管部门或流域管理机构；建立以GIS技术为基础的取水许可管理信息系统，实现信息共享，避免取水许可分级管理造成的过度许可和数据混乱；加强计划用水管理，按照来水情况制定用水和调水计划，确保不超许可水量，缓解用水冲突。

因此易知

(3)

2.4 考虑交易费用的投资组合收益

交易成本在前文假设2中已经被假设为当日交易额的一个固定比例，但这一交易费用与投资组合总价值不是成正比的，因此为了便于表示，设μt为在[t-1,t]时期交易费用占投资组合总价值的比例，因此pt与的关系可以表示为：

The E-step and M-step are repeated until the final results of the parameter estimation are obtained.All steps of the EM-aided dual-frequency ambiguity estimation algorithm are as shown in Table 1.

(4)

将式(3)、式(4)相乘，并分别代入式(1)、式(2)中，可知：

EXCEL计算模型测算结果见表5，ARC6阿芙拉型船舶日平均期租租金为2.4万美金时，净现值和内部收益率处于盈亏点。

rt=(1-μt)wtyt

(5)

(6)

2.5 缺失数据处理

在股票市场中，可能存在个别股票停牌的现象，此时单只股票的价格数据为空白，因此将停牌期间的价格设为停牌之前最后一个交易日的收盘价，避免影响整体的运算。

此外周末和节假日为非交易日，此时所有股票的数据都为空白，因此直接将非交易日的数据全部去掉，不会影响到整体数据的计算。

3 实验数据输入

在本文的实验中，从中证100指数成分股中选取16只股票作为风险资产，因此N=16,再加上货币，构成投资组合中的N+1=17种金融资产。其中，选取的中证指数成分股股票代码如下：600011，600015，600016，600028，600030，600036，600048，600115，600276，600518，600519，600585，600837，600999，601006，601009。

将交易成本占交易额的比例设为0.025%，这个数值的设定对于中国的股票市场是很合理的，而且由于中国股票市场规定当日买入的股票只能次日或之后才能卖出，因此选用每个交易日最多交易一次的交易频率，同时为了简化模型的难度，设定交易时间间隔必须为整数天。

若兼职工作侵犯了马普学会作为雇主的利益，则不予批准。主要情况有以下几种：兼职时间超过本职工作的1/5；所长级别以下雇员一项或多项兼职总收入超过最终基本年薪的40%；在缔结顾问协议后研究所的科研工作以不希望发生的方式受到外界支配；在学会担当本职工作时须完成的出版物，受兼职影响未能完成、篇幅缩短或者出于非客观原因（是指科研人员顾及商业企业利益而从事或搁置研究、结果损害了学会利益的情况）延迟提交等。

4 DDPG算法结构

强化学习的基本要素包括智能体Agent、环境、状态s、策略π、动作a、回报r。Agent从环境感知当前状态st，根据策略π选择动作at，作用于环境，得到回报rt，转换到下一状态st+1。由于回报rt只能反映当前动作和状态的回报，不能反映对未来回报的影响，因此又引入了值函数v，v包含当前回报和未来估计的折扣(用γ表示)回报。深度强化学习方法利用深度神经网络来学习连续动作空间的策略，将策略进行参数化表示，输出即为动作。

DDPG算法采用强化学习的Actor-Critic[16]架构，由4个神经网络组成：2个结构相同的Actor策略网络，分别为Actor_online网络和Actor_target网络；2个结构相同的Critic评价网络，分别为Critic_online网络和Critic_target网络。其中Actor_target和Critic_target网络主要用于产生训练数据集，而Actor_online和Critic_online网络主要用于训练优化网络参数。根据引言部分的分析，与其他神经网络相比LSTM网络更适合于时间序列数据的预测[12-13]，因此本文的算法中采用LSTM。

二维码过闸方案中，脱机配对的方式，不能控制二维码进出站状态，容易造成进出站交易配对不成功。联机刷码的方式，进出站时间较长，不能适应城轨大客流通行的特点。联机回写的方式，对车站网络要求较高，必须保证网络通信较好，否则无法进出站。双脱机回写方案，采用脱机安全认证技术，检票速度不受网络条件影响，安全性高、交易速度快、支持城轨阶梯票价，把二维码等于同于实体卡，降低票务处理难度。

2个Actor策略网络都是由一个长短时记忆网络层LSTM、一个全连接网络层(FC)和一个softmax层组成的，其中全连接网络层的激活函数采用线性纠正函数(ReLU)。网络输入为状态，即资产价格st，输出为买卖动作at。

目前对于MoS2纳米微球的制备已经出现了大量的方法，且已制备出了结构、形貌各不相同的MoS2纳米微球。MoS2纳米微球具有特殊的球状结构，相较于传统的MoS2纳米粒子而言，在摩擦过程中表现出了更为优异的减磨润滑性能，不仅应用于润滑油介质添加剂使用，而且能够应用于耐磨复合材料以及复合涂层的制备。然而MoS2纳米微球的可控化制备尚未完全实现，今后对MoS2纳米微球的制备及其在摩擦过程中润滑作用的研究将会更加深入，以期建立MoS2纳米微球形貌结构与其减磨润滑作用的关系，开发出更多性能优异的MoS2纳米微球润滑复合材料。

2个Critic评价网络都是由一个LSTM网络层、一个FC全连接网络层(输入为资产价格st)和一个FC全连接网络层(输入为动作at)组成，最后2个FC相加后接入另一个FC全连接网络层。网络输入为资产价格st和买卖动作at，而输出为估计的未来折扣回报γqt+1。

令wmax1=0.7，wmax2=0.2，wmax3=0.1，其他权重保持不变，此时所有资产权重的总和可能超过1。之后通过等比缩放，使得所有资产的权重的总和变为1，得到最终权重。注意，由于中国的股票市场不允许做空，因此需要设定单个资产的权重不为负。

图1 DDPG算法架构

DDPG算法具体步骤如下：

1)Actor_online网络产生回放数据集：根据资产价格st输出初始动作，再加上随机噪声a_noiset输出动作at，并计算即时回报rt，即公式(5)所示的当前收益率；转换到下一状态，即下一时刻资产价格st+1。于是得到训练数据集，也称为回放数据集，由(st,at,rt,st+1)构成。

2)对回放数据集进行Mini-batch采样，即每次随机采样相同数目且连续的样本作为网络的训练数据。用(si,ai,ri,si+1)表示单个Mini-batch中的一组数据。

3)使用Mini-batch采样数据估计值函数vi。由Actor_target网络计算动作ai+1，由Critic_target网络计算未来折扣回报γqi+1，最后计算值函数vi=ri+γqi+1。

4)使用Mini-batch采样数据和计算的值函数vi对Critic_online网络进行训练，采用Adams(Adaptive Moment Estimation)方法进行优化，同时由Critic_online网络通过策略梯度对Actor_online网络进行优化。

“新的“两委”班子成员到位以后，我们作为前任领导，从工作上从思想上多方面地给予帮助，年轻人学习也快，进入角色转变角色都非常快，现在都能正常地开展工作了。”一〇四团西城西社区原负责人刘军欣慰地说。□

5)最后由Critic_online网络和Actor_online网络分别更新Actor_target网络和Critic_target网络的参数。

5 DDPG算法实现及问题解决

5.1 软件环境

计算机操作系统为Windows10，运行环境为Tensorflow1.4，采用Python3.6编程语言。

5.2 遇到的问题及解决办法

在实际训练网络时主要发现了过拟合和资产权重分配不合理的问题，下面具体分析产生的原因和解决办法。

传统人工神经网络随着神经网络层数的增加，容易出现局部最优解或过拟合问题，因此不适用于深层网络；另外需要人工设计数据特征并进行数据标记，使得学习耗时耗力。

在算法实现的过程中，神经网络容易出现在训练中效果良好而在测试中表现不佳的现象，说明这时网络过于依赖训练数据集，因此当新数据出现时无法有效处理，也就是出现了过拟合现象。为了解决该问题，采取以下措施：在所有的LSTM网络中增加Dropout选项；适当减少数据集的采样次数(Max Step)；改变输入资产数据的窗口长度(Window Length)，“窗口长度”为在交易过程中设置的历史数据天数，用于计算当前的最优权重。

本设计配备摄像头2套，安装在地磅两侧与电脑同步，可监视驾驶室人员上下车情况、刷卡情况、车辆上磅情况，车辆挺稳后自动拍摄，避免重复过磅的作弊现象，如图3所示。

2)资产权重过于集中。

由于强化学习是以马尔科夫决策过程为基础的[6]，即认为未来的回报与过去的状态无关，仅与当前和未来状态有关。由于投资组合的风险(即方差)需要根据历史数据计算得到，若将投资组合的风险最小化作为优化目标，就会使得未来的回报与过去的状态有关。因此本文采用的方法将值函数v(即当前收益率加上未来折扣收益率)最大化作为唯一的优化目标，因而无法同时做到风险最小化。但是，为了通过投资组合适当分散非系统风险，可以对原始权重进行进一步处理，做到在尽量不影响投资组合表现的前提下，适当对组合中的各项资产权重进行分散，从而达到优化收益、减小风险的目的。具体过程如图2所示。

铁坑矿区位于江西省分宜县城75°方向16 km，岩浆岩为燕山期花岗斑岩、黑云母花岗斑岩类。矿(岩)层受F1断层控制，该断层为拆离滑脱剥离复合构造，走向近东西向，倾向北北西—北北东向，倾角70°～85°，局部有倒转。明显切割两侧岩层，上盘控制了矿化体的产出，下盘错距160 m。矿区8线、12线有明显的拆离滑脱剥离复合构造特征。

首先判断出原始权重中的最大值并设为wmax1，判断wmax1是否大于0.7，若不大于0.7，则说明输出的原始权重已经达到一定程度的风险分散，此时直接将原始权重作为最终权重。若wmax1大于0.7，则说明投资组合的权重过于集中于一个金融资产，这时需要对权重进行处理。

图2 投资组合的权重限制实现

接着将wmax1对应的资产设为无效，重新利用神经网络计算一组新的最优权重，将第二次得到的权重中的最大值设为wmax2，并继续将其对应的资产设为无效。继续重新计算最优权重，将第三次的最大值设为wmax3。

DDPG算法结构如图1所示。

6 实验结果

本文选取16只中证100指数成分股从2011年7月18日-2018年1月15日的收盘价作为实验数据。其中共包括1581个交易日，将其中约2/3的数据，即1000个交易日，作为神经网络的训练数据，剩余的581个交易日作为测试数据。因此训练数据由2011年7月18日-2015年8月27日的收盘价组成，测试数据由2015年8月28日-2018年1月15日的收盘价组成。先对神经网络进行训练，并用训练好的神经网络对测试数据进行交易，就可得到实验结果。

“神言”与真理是完全不同的东西。陀思妥耶夫斯基跨越了界限，得到了来自神界(精神世界)的消息。但这消息并非真理的等价物，而是拥有真理的格调或先知的语气。

由于本文中的实验是先随机挑选16只股票作为风险资产，再用这16只股票构建投资组合，并没有选择其他股票的权利，所以与现实中主动型股票基金情况不同，不能进行直接的绩效对比。因此为了评价本文方法的结果，构建另一个投资组合作为对照组(等权重组合)，即假设该组合在最初分配给各项风险资产的权重都是1/16，并不改变权重一直持有至期末。

TotalFORCE 专利技术的功能扩展还包括更强大的自适应控制能力。随着时间的推移，被控机器特性随之变化，TotalFORCE技术可以让变频器对此予以自动补偿。自适应整定功能利用多达 4 个自动跟踪的谐波滤波器，防止那些可能影响质量、增加能耗或导致机器过早磨损的共振和抖动。

本文实验的窗口长度为6天；Dropout的概率为0.8，即在训练过程中LSTM网络中每个节点没有被丢弃的可能性为0.8。

实验结果如图3所示。

图3 本文投资组合与对照组的总价值变化

图3中的横坐标为时间t，纵坐标为公式(6)中的累计收益率Rt，其中DDPG_window_6_predictor_lstm对应的曲线为本文构建的投资组合的价值，而market_value则为对照组(等权重组合)的市场价值。从图3中可以清晰地看出本文采用深度强化学习构建的投资组合的收益要显著高于等权重组合。之后进一步对实验数据进行分析。

2015年8月28日为交易开始的时间，此时本文组合和对照组的价值为初始价值，将其设为p0，并用p0的倍数来表示之后不同时间节点的本文投资组合与对照组价值。选取每年最后一个交易日作为关键时间节点，将相应数据进行汇总和对比，结果如表1所示。

表1 本文投资组合与对照组的价值对比

项目本文组合对照组2015年8月28日总价值p0p02015年12月31日(最后一个交易日)总价值1.33 p01.15 p02016年12月30日(最后一个交易日)总价值1.69 p01.17 p02017年12月29日(最后一个交易日)总价值2.20 p01.45 p0

根据表1中的数据分别计算出本文投资组合与对照组的2016年增幅、2017年增幅、2016-2017年期间的几何平均价值增幅以及2016-2017年期间总增幅，结果如表2所示。

表2 本文投资组合与对照组的价值增幅对比单位：%

项目本文组合对照组2016年增幅26.341.362017年增幅30.6823.842016-2017年期间的几何平均增幅28.4912.042016-2017年期间总增幅65.0925.53

从表2可以看出，本文采用深度强化学习构建的投资组合价值增幅在不同区间都显著高于对照组，说明本文方法进行的积极型投资组合管理取得较好的效果，本方法的应用价值得到了证实。

不过，本文投资组合的价值增幅在2016年比对照组高了24.98%，但在2017年却仅比对照组高了6.84%，因此可以认为本文构建的投资组合在2016年的表现优于2017年。这可能是因为训练集包含的是2011年7月18日-2015年8月27日的历史数据，经过这些数据训练出来的神经网络仅仅学会了这一时间段存在的市场规律。当被应用于2017年时，由于与训练数据时间的间隔过长，市场情况已经发生了变化，原有规律有一部分已经不能完全适用，因此导致本方法在距离训练数据时间较近的2016年表现要优于较远的2017年。

为了验证这一猜想，进一步进行实验，仍采用2011年7月18日-2018年1月15日的收盘价作为实验数据。将实验数据中的前1250个交易日作为训练数据，剩余的331个交易日作为测试数据。因此训练数据由2011年7月18日-2016年9月5日的收盘价组成，测试数据由2016年9月6日-2018年1月15日的收盘价组成。测试结果如图4所示。

老太医说，其实德公公才是真老虎，所谓八虎，不过是真老虎的利爪和獠牙。真正的报仇，应该从剪除爪牙开始，让元凶在忍受剧痛的同时，一步步丧失反抗的能力，一步步陷入无望，直至跌入万劫不复的绝境。德公公不是爱深居简出，惯于颐指气使吗？那就让他成为真正的孤家寡人，最终仅剩孤零零一个，无人可指，无兵可使，到时候，不待你动手，他就会崩溃。

图4 进一步实验中本文组合与对照组总价值变化

从图4可知，当在训练数据集中加入2016年的数据之后，本文投资组合的表现显著优于之前对照组。对投资组合价值的增幅进行计算，得到表3的结果。对比表2中未加入2016年数据训练的实验结果，发现本文投资组合的表现明显变好，证实了训练数据与测试数据的时间间隔越短，则训练效果越好的猜想。

表3 本文投资组合与对照组的价值增幅对比单位：%

项目本文组合对照组2017年增幅40.3723.84

综上所述，本文方法进行的积极型投资组合管理所构建的投资组合具有较好的效果，这一方法的应用价值得到了证实。

7 结束语

由于目前还没有深度强化学习技术在投资组合管理的应用，本文首次将深度强化学习的DDPG算法进行改进，使之能够应用于投资组合管理，通过限制投资权重，分散了风险，并采用丢弃算法，解决了过拟合问题。本文以中国股票市场为例，选取了16只中证100指数成分股，作为投资组合中的风险资产进行实验。实验结果表明，本文方法构建的投资组合表现远超其他对照组，表明了本文方法的有效性。但是本文方法为了适当简化而提出了一些假设，例如假设交易资金量足够小，以至于不会对市场中其他投资者行为以及金融资产价格造成影响，但当本方法的使用者为机构投资者或资金量较大的个人投资者时，就需要考虑自身交易对市场价格带来的影响，因此有必要进行更深入的研究。此外，虽然本文仅针对中国股票市场进行了实验，但这一方法对于期货市场和外汇市场是否也适用，有待于进一步探索。

参考文献：

[1] Markowitz H M. Portfolio Selection: Efficient Diversification of Investments[M]. 2nd Ed. New Jersey: Wiley, 1991.

[2] Qi Yue, Wang Zhi-hao, Zhang Su. On analyzing and detecting multiple optima of portfolio optimization [J]. Journal of Industrial and Management Optimization, 2018,14(1):309-323.

[3] Qi Yue. On the criterion vectors of lines of portfolio selection with multiple quadratic and multiple linear objectives[J]. Central European Journal of Operations Research, 2017,25(1):145-158.

[4] 赵冬斌,邵坤,朱圆恒,等. 深度强化学习综述: 兼论计算机围棋的发展[J]. 控制理论与应用, 2016,33(6):701-717.

[5] 李玉鑑,张婷. 深度学习导论及案例分析[M]. 北京:机械工业出版社, 2016.

[6] 王雪松，朱美强，程玉虎. 强化学习原理及其应用[M]. 北京:科学出版社, 2014.

[7] Selvin S, Vinayakumar R, Gopalakrishnan E A, et al. Stock price prediction using LSTM, RNN and CNN-sliding window model[C]// 2017 International Conference on Advances in Computing, Communications and Informatics. 2017:1643-1647.

[8] Khare K, Darekar O, Gupta P, et al. Short term stock price prediction using deep learning[C]//2017 2nd IEEE International Conference on Recent Trends in Electronics, Information & Communication Technology. 2017:482-486.

[9] 曾志平，萧海东，张新鹏. 基于DBN的金融时序数据建模与决策[J]. 计算机技术与发展, 2017,27(4):1-5.

[10] 李文鹏，高宇菲，钱佳佳，等. 深度学习在量化投资中的应用[J]. 统计与管理, 2017(8):104-106.

[11] 胡文伟，胡建强，李湛，等. 基于强化学习算法的自适应配对交易模型[J]. 管理科学, 2017,30(2):148-160.

[12] Li Wei, Liao Jian. A comparative study on trend forecasting approach for stock price time series[C]//2017 11th IEEE International Conference on Anti-counterfeiting, Security, and Identification. 2017:74-78.

[13] 孙瑞奇. 基于LSTM神经网络的美股股指价格趋势预测模型的研究[D]. 北京:首都经济贸易大学, 2015.

[14] Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with deep reinforcement learning[C]// Advances in Neural Information Processing Systems. 2013:1-9.

[15] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540):529-533.

[16] Deng Yue, Bao Feng, Kong Youyong, et al. Deep direct reinforcement learning for financial signal representation and trading[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017,28(3):1-12.

[17] Jiang Zhengyao, Xu Dixing, Liang Jinjun. A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem [DB/OL]. https://arxiv.org/abs/1706.10059, 2017-11-30.

[18] Zhang Chi, Zhang Limian, Chen Corey. Deep Reinforcement Learning for Portfolio Management[DB/OL]. http://www-scf.usc.edu/～zhan527/post/cs599, 2017-11-18.

[19] Srivastava N， Hinton G， Krizhevsky A. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014,15(1):1929-1958.

[20] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006,313(5786):504-507.

[21] 陈学松,杨宜民. 强化学习研究综述[J]. 计算机应用研究, 2010,27(8):2835-2844.

[22] 李晨溪,曹雷,张永亮,等. 基于知识的深度强化学习研究综述[J]. 系统工程与电子技术, 2017,39(11):2603-2613.

[23] Silver D, Huang Aja, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016,529(7587):484-489.

[24] Silver D, Schrittwieser J, Simonyan K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017,550(7676):354-359.

[25] Timothy P L, Jonathan J H, Alexander P. Continuous control with deep reinforcement learning[C]// International Conference on Learning Representations. 2016:1-14.

作者

齐岳，黄硕华

出处

《计算机与现代化》 2018年第05期

上一篇：基于极限学习机的武器装备作战效能全局敏感性分析

下一篇：基于跳跃显露模式挖掘算法的癌症分类

《计算机与现代化》2018年第05期文献

基于LSTM的临床血液需求预测方法作者：郑亚鹏，樊璐

基于移动通信大数据的城市人口空间分布统计作者：周天绮

基于模糊推理的构件度量作者：陈晓，孙英昊，赵攀，刘倩

基于VSTO的文档审阅批注自动导出技术作者：李建波

基于Docker的MPI和OpenMP混合编程作者：赵博颖，肖鹏，张力

基于堆叠降噪稀疏自动编码器的软件缺陷预测作者：薛参观

SecDr：一种内容安全的Docker镜像仓库作者：魏兴慎，苏大威，屠正伟，刘苇，祁龙云，吕小亮，杨斌

基于CP-ABE的隐藏属性外包解密访问控制作者：陈成，努尔买买提黑力力

双重触发的嵌入式系统内核安全访问控制作者：黄姝娟，朱怡安，高武奇，罗钧旻

基于极限学习机的武器装备作战效能全局敏感性分析作者：董雪，张德平

基于深度强化学习DDPG算法的投资组合管理作者：齐岳，黄硕华

基于跳跃显露模式挖掘算法的癌症分类作者：乔媛，廖小平，邵开霞

基于马尔科夫链的大学生自主学习能力预测方法作者：刘德春，张秀国，姜微

面向中亚的大学汉语辅助学习软件设计与教学应用作者：杨勇，赖如，任鸽

延迟抖动在TFRC拥塞控制策略中的应用作者：谭志勇，赵甫哲

基于内容分析的网络协议指纹识别作者：夏琨，丁波，刘俊，刘子豪，林亮成

一种平稳子空间分析的快速不动点算法作者：林原灵，陈前

一种快速的双重层次包围盒碰撞检测算法作者：刘超，蒋夏军，施慧彬

FlexRay动态段消息调度优化算法作者：张良玉，王义，张育贵，刘志超，杨梅

基于加权中值滤波的MST立体匹配算法作者：赵大成，许道云

基于Gabor滤波的语音识别鲁棒性研究作者：缑新科，徐高鹏

基于船舶融合点迹行为识别的雷达监视系统作者：陈晓利，祁云嵩，林嘉炜

基于信息论方法的分类数据相似性度量作者：郑碧如，吴广潮

基于fastText的中文文本分类作者：代令令，蒋侃

杂志信息网