An intelligent financial portfolio trading strategy using deep Q-learning论文阅读笔记
文章目录
-
- 创新点
- 技术细节
- 数据处理
- 参数与指标
- 小结
创新点
提出了一种新的处理不可行动作(infeasible action)的方法 —— 增强型的经验回放机制及特殊的映射规则

针对资金和资产双向受限的情形(即无法进行某些交易操作),本系统将采取不同的应对策略而不是简单依据Q值进行选择)。当资金不足时,在映射规则下会生成一个与不可行行为相似但可行的动作集合(其中每个资产的操作方向与原始策略一致)。而当资产持有量不足时,则会将原本的卖出操作调整为暂时不进行该资产的操作。

该LSTM-DNN网络架构采用了一种分步处理的方式:首先将输入状态划分为多个独立的状态序列(每个状态为(资产数量, window_len, feature)),然后将每个状态序列单独输入到LSTM模型中进行特征提取。接着,在完成所有资产序列的特征提取后将其输出结果依次连接形成统一特征向量,并结合当前投资组合权重向量作为DNN输入层用于计算收益预测值Q。此外,在本研究中假设多个资产共用一个LSTM编码器这一假设能够提高模型的整体泛化能力

技术细节
State space is defined as s_{t} equals the tuple X_{t}, w_{t}'. Here, X_{t} represents a tensor of technical indicators for assets within the investment portfolio. This tensor encompasses various price change rates such as closing price, opening price, highest price, and lowest price. Specifically, X_t = [K^c_t,K^o_t,K^h_t,K^l_t,K^v_t] where each element corresponds to different technical metrics related to asset performance.
$K^x_t =
\left[
\begin{array}{ccc}
k^{x}{t,1,1} &
\cdots &
k^{x}{t,1,n}
\
\vdots &
\ddots &
\vdots
\
k^{x}{t,I,1}
&
\cdots &
k^{x}{t,I,n}
\end{array}
\right],
~{\rm 其中每一行代表~投资组合中的各个资产;每一列则代表时间窗口内最近的技术指标序列;值得注意的是,
如果设定时间为n的时间窗口并且采用包含I个资产的投资组合,
那么该技术指标张量就是一个维度为I×n×5的技术指标张量。
}

w_t'代表现有投资组合在操作前的权重向量
\mathbf{w}_t' = (w_t'^{0}, w_t'^{1}, w_t'^{2}, \ldots, w_t'^{I})^T
设定固定的比例进行交易,在每一轮中agent通过其动作选择持有哪些资产,并按照预先设定的份额进行买卖操作。具体而言,在每种资产上可采取三种操作类型:卖出(-1)、保持不变(0)或买入(+1)。例如,在两个资产的情况下,若选择买入第一个并卖出第二个,则操作向量可表示为(1,-1)。所有可能的操作构成了一个离散的动作空间。
Reward function的定义若基于投资组合回报,则可能导致reward表现出对市场趋势的高度依赖性。具体而言,在市场趋势出现明显恶化的情况下,“无论agent采取何种有益行动都会获得负面奖励”的现象依然存在。对此本研究采用了另一种更为稳健的方式——将奖励定义为去除了市场趋势影响的投资组合价值变化率。
其中,
r_{t} 代表相对于静态投资组合价值的变化率,
即:
r_{t}= \frac{P'_{t+1}-P^{s}_{t+1}}{P^{s}_{t+1}}
其中,
P^{s}_{t+1} 是指智能体在当前期结束时不采取任何行动时,
下一期的投资组合价值,
计算公式如上所示。

数据处理
将数据划分为年度区间 由于测试集与训练集的投资范围差异较大可能带来负面影响 因此我们设定学习周期以便agent在环境中进行探索 将总训练数据划分为多个学习周期 每个学习周期涵盖一年的数据
根据年份选择训练集,在每次训练过程中, 我们会从所有的 episode 中挑选一个 episode 用于作为训练集. 不同 episode 被选中的概率并非相同, 近期历史数据相较于远期历史数据更能预判未来的变化. 因此, 在测试周期附近的时间段中挑选的 episode 会被赋予更高的被选中几率. 这种概率分布的设计使得模型能够更加关注近期的数据变化, 从而更好地适应当前市场环境. 其中, 抽样概率计算如下: 对于每个 episode y 和测试数据所在的年份 y_v, 总共有 N 个 episode

在实验过程中涉及了两种不同类型的三资产投资组合研究,在包括美国市场以及韩国市场的特定投资组合中展开分析

参数与指标
本文在两个投资组合案例中设定初始投资资金为1,000,000美元(包括美国市场1M美元和韩国市场1M韩元);同时,在两个案例中对交易规模进行了设定为1.49万韩元(对应于美国市场案例中的1.49万美元交易规模以及韩国市场案例中的1.49万韩元)。此外,在设定买卖交易成本率时采用的是每日固定成本比例为万分之二点五的情形。在这两个案例中,在初始投资组合配置上采用了相同的加权组合策略:各资产与现金的配置比例保持一致

评价指标
1.累计收益水平(Cumulative Return)
2.夏普比率指标(Sharpe Ratio Index)
3.斯特林效率比(Sterling Efficiency Ratio)
通过使用年化数据来评估下行风险后的收益水平变化情况,在计算过程中通常会采用√252的方法将日频数据转化为相应的年化数值表现形式。

4.换手率(Average turnover)
衡量在投资期限内投资组合权重向量的平均变动程度,并通过不考虑交易前后现金权重的变化来定制这一指标。该比率可用于评估资产在投资组合中的权重调整情况。考虑到交易成本的影响,在实际应用中该比率应保持较低水平以提高策略的有效性


小结
研究者在本论文中创新性地提出了一种新的映射方法(旨在降低不可行动作带来的交易方向变化影响)。经过实证分析表明,在保持投资组合整体稳定性的同时显著提升了其收益水平(表明该方法有助于提高交易决策的质量)。研究者还通过对比实验发现提出的DQN策略在多个关键指标上优于多种基准策略(其存在仅适用于离散动作的局限性)。尽管该策略能够实现固定规模的操作(这与实际情况不符),但仅能进行固定规模的买卖操作(这与实际情况不符),因此可以通过采用PPO或DDPG等改进方法解决这一局限性)。
