202205Note:A Deep Reinforcement Learning Framework for theFinancial Portfolio Management Problem
Abstract
金融投资组合管理是通过在不同金融产品间进行持续的资金分配来实现更大累计收益的过程。本文提出了一种无需传统金融模型支持的强化学习架构,并为此类深度机器学习问题提供了创新性解决方案。该架构由EIIE拓扑结构、投资组合内存机制、在线随机批量学习算法以及基于即时奖励设计的奖励函数四个核心组件构成。本研究通过分别采用卷积神经网络(CNN)、基础循环神经网络(RNN)以及长短期记忆网络(LSTM)三种不同的深度学习模型,在三种典型的投资组合选择策略上进行了三次后验测试实验。其中,在加密货币市场的交易周期设定为30分钟的情况下展开实证研究。加密货币作为一种去中心化的电子货币体系中以比特币最为著名。实验结果表明,在所有测试样本中该框架实例均稳居前三名位置,并显著优于其他主流交易算法策略。尽管后验测试结果显示每笔交易佣金率高达0.25%,但该框架仍能保证累计收益至少达到原始水平的4倍以上
Introduction
提到四种传统投资组合管理方法
- Follow a strategy inspired by the best-performing counterpart - 该方法旨在渐近性地逼近最佳策略的增长率(以期望值日志回报衡量),通常可借助组合博弈理论(CGT)进行建模。
- By shifting wealth from winners to losers, this approach appears counterintuitive yet supported by empirical evidence suggesting that this method often yields superior results.
- The pattern-based strategies aim to predict future market distributions using historical data samples and optimize product portfolios based on these sampled distributions.
- While the previous three categories focus on single strategies individually, the remaining strategies consider multiple strategies collectively. A meta-algorithm (MAs), by contrast, adaptsively combines iterations from a pool of basic optimization algorithms.
小小dis了下价格预测
许多人在尝试预测价格波动或市场趋势,并利用所有资产的历史价格作为输入数据来训练神经网络模型。神经网络能够生成下一个时间段内资产价格的变化向量。这一思路相对容易实现——特别是因为这是一个监督学习问题。然而事实表明,在很大程度上依赖于准确率的情况下(即acc),这些基于价格走势的算法表现并不理想。
离散交易信号
xxxx
可扩展性的必要性
市场行为倾向于被观察到具有离散化的特点。然而,在金融领域中这种现象被视为一个主要缺点。具体而言,在极端情况下这种离散性可能表现为将所有资本集中投资于单一资产而忽略其他市场领域以分散风险的做法。此外值得注意的是这种现象的规模往往较大例如不同市场的总资产数量差异显著因此为了更好地发挥机器学习的优势交易算法需要具备良好的扩展性
本文的重点思想框架
本文开发了一个专为项目组合管理任务设计的强化学习(RL)框架。其核心是基于完全相同的独立评估者集合构成的EIIE拓扑架构。IIE作为一种神经网络模型,在分析历史数据并预测资产潜在增长方面发挥重要作用。每个资产组在其所在组合中的重要性权重变化程度决定了其评估分数,并经由指数衰减后输入至softmax层来确定下一交易期的新组合权重分配方案。除了利用市场历史记录外,在EIIE中还引入了上一期的投资组合权重信息配置项。这要求RL代理人在执行投资决策时需权衡交易成本对整体财富收益的影响效果。因此将各期的投资组合权重记录于投资组合向量存储器(PVM)中成为必要操作步骤。在此基础上,EIIE采用了一种适合事前训练、历史回测以及实时在线学习相结合的在线随机批量学习方案(OSBL)。这种学习方法可同时应用于事前训练、历史回测以及实时在线学习过程中的策略优化机制设计上。为了提高框架的整体性能,EIIE设计了基于周期累计收益的最大化的目标函数表达式,并在此框架指导下,通过梯度上升的方式实现了功能模块的有效优化与协同进化过程研究工作随后分别测试了卷积神经网络(CNN)、基本递归神经网络(RNN)以及长短记忆网络(LSTM)三种不同的IIE架构设计方案
加密货币
比特币仍是占主导地位的加密货币。
数字货币有两种与传统资产不同的属性:分散性和开放性,推动其发展成为算法投资组合管理的理想试验平台。
Problem Definition
公式
vt represents the opening prices during Period t + 1 and also the closing prices during Period t.
price relative vector of the tth trading period, yt,

When pt−1 represents the portfolio value at Period t's beginning, without transaction costs considered, wt−1 denotes the portfolio weight vector.

The rate of return for Period t is then (3)

If there is no transaction cost, the final portfolio value will be

by the end of the same period, connection weights are transformed into

(下面的点乘我怀疑是乘起来加和,就是保证最终的所有w加起来=1)
Representing pt−1 as the portfolio value at the beginning of Period t and pt′ after, µt is within (0, 1].

The rate of return (3) and logarithmic rate of return (4) are now

and the final portfolio value in Equation (6) becomes

后面的公式卡了555
假设
股票回测定义:是指通过构建一系列技术指标组合,在真实的历史行情数据中选择符合条件的标的资产,并按照模拟真实的交易机制执行买入操作的同时,在符合条件时触发卖出机制的过程中
在本研究中仅限于考虑回测交易(参照股票回测的标准),即模拟回到市场历史上的某个特定时间段,在此期间交易代理并不了解任何未来市场动态,并在此基础上执行纸面交易操作。作为实验的前提条件有两个基本假设:第一部分是无滑点状态,在这一状态下所有市场资产都具备足够的流动性,在下单时即可立即以当前价格成交;第二部分是无市场影响力效应,在这种情况下软件交易平台的资金规模微不足道以至于不会对市场价格产生任何影响。当实际交易环境中的某只证券日均成交量足够大时上述两个假设就会更加接近现实情况。
Data Treatments
资产预选
选择top-volumed cryptocurrencies,因为意味着资产的市场流动性好。
在回测实验过程中避免筛选top-volumed cryptocurrencies,在这些资产之间存在交易量与其受欢迎程度显著关联的情况下(这会受到其历史表现的影响)。将未来的销售排名分配给回测过程可能导致不可靠的信息泄露(因为它可能会间接地传递未来的价格信息)。因此,在回测开始之前需要依据容量信息进行筛选(以防止生存偏差)。
Price Tensor
在时间t期间, 资产的特征由收盘价. 最高价与最低价构成. 由于价格的变化决定了资产组合管理的表现, 则需对所有特征的价格进行标准化处理; 从而获得综合指数X_t.


Filling Missing Data
flat fake price-movements (0 decay rates)平坦的假价格(0衰减率)来填充缺失点
Reinforcement Learning
采用的是Full-Exploitation和Deterministic Policy Gradient
尽管许多金融市场都具备完整的订单记录系统,在实际操作中agent处理这些数据的工作量过于巨大。为此开发了一种基于子抽样的高效表示方法以简化市场环境的状态表示
该周期性特征提取过程将时间序列划分为若干时间段,并对每个时间段进行最高值、最低值及收尾价的分析
(2)history cut-off 历史截止点仅仅依赖近期时间段内的价格特性来表征当前环境的状态
结果表示为第3.2节中所述的价格张量Xt。
买卖是由W_t' (W_{t-1})和W_t两个值决定的;而其中的W_{t-1}是在前一时刻确定的;因此,在当前时刻的动作仅涉及W_t
在上一时间段的行为W_{t−1}会对当前时间段的买卖产生影响;与此同时,在当前时间段的状态中必须包含上一时间段的行为信息W_{t−1}
Policy Networks
Softmax
这是一个关于Softmax函数及其常见误用的研究综述文章。文章详细探讨了Softmax函数在多分类问题中的应用机制,并揭示了人们对其存在的一些误解及其可能导致的实际应用问题。研究者通过大量实验数据验证了当前主流实现方案的有效性,并提出了若干优化建议以进一步提升模型性能
Network Topologies
CNN,RNN,LSTM
无论何种情况下,在所有情况下而言

Figure 2: CNN Implementation of the EIIE
一种全卷积网络结构中,最深层的一个隐藏层单元负责对实物资产分配评分值;将这些评分值与现金偏差进行Softmax激活处理后得到的结果,则直接决定了对应的资产组合权重;为了使神经网络能够考虑到交易费用的影响,在训练过程中将上一期的投资组合向量w_t-1会被依次输入至投票层之前的部分中

Figure 3: RNN (Basic RNN or LSTM) Implementation of the EIIE
在这种场景中, 单个资产的价格输入由较小规模的循环网络接收. 这些网络均为统一类型的LSTM或者基本RNN. 在此之后, 可感知网络的整体架构与CNNI图后半部分的一致.
Portfolio-Vector Memory

Figure 4: A Read/Write Cycle of the Portfolio-Vector Memory
PVM是一个按照时间顺序排列的投资组合集合,在初始化时采用相同权重;在每次训练步骤中,策略网络从当前内存位置加载上一个时期的PVM并将其输出值覆盖当前内存;当policy网络的参数在多个训练阶段趋于稳定时,内存中的数值也随之趋于稳定。
Online Stochastic Batch Learning
与监督学习显著区别在于,在监督学习中,数据点没有固定的顺序;在该训练方案下一批批训练样本构成小批量,在这种情况下为了保证时间序列属性这些批次中的数据需要按照时间顺序排列;由于数据集是时间序列,在这种情况下从不同时间段开始的小批量被认定为有效且独特的尽管它们之间存在明显的重叠间隔
(说实话没懂xs)
