Advertisement

OPTIMAL MARKET MAKING BY REINFORCEMENT LEARNING --- 论文阅读笔记

阅读量:

文章目录

    • 创新点

    • 本文方法

    • 统计指标和对比策略

      • 统计指标
      • 对比策略
    • 实验

    • 小结

创新点

通过强化学习方法解决市场做市问题的主要目标是实现最大化的市场做市利润并有效管理库存风险;深入研究强化学习技术在金融市场中的应用;该研究采用了T Quantitative Learning(TQL)算法以及Deep Q-Network(DQN)模型作为主要工具进行实验分析。

本文方法

在这里插入图片描述

输入State: 当前价格s、库存数量q、剩余的时间T-t
输出Action: (b ,a)agent想要的买入价格b和卖出价格a
实际网络设计时Action被定义为一个离散的空间,网络输出为单一数值旨在表示价格偏移量,本文将agent的出价控制在[s-2, s+2],da=0.2可以划分出21个动作(动作总数Na = 21)在中间价格的基础上左右移动十步。例如:输出的action为7,7-10= -3代表着左侧第三个动作(距离中间),despl=-3 * 0.2 = -0.6,通过偏移值despl转化bid-price和ask-price。随后通过速率函数(用于描述订单执行频率),获得买or卖的概率,决定是否买卖,更新库存q。
*当前价格和中间价格不同,中间价格由当前价格转化来
Reward: reward = dw - self.kappa / 2 * (dw - self.stats.mean()) ** 2
dw财富变化量 = 当前-之前的; self.stats里面存一个周期T所有的dw,减去self.stats.mean()可以跟踪整个周期里的财富变化情况,关注单期回报偏离平均值的程度,反映agent的风险偏好
self.kappa–系数k控制了agent对回报波动的厌恶程度,k越大表示agent更加保守,k越小意味着agent愿意承担更高的风险换取更大的收益。

统计指标和对比策略

统计指标

np.mean(ws)反映了多次模拟后累积财富的平均水平。较高的np.mean(ws)值表明该策略在长期运行中能带来更高的收益。np.mean(ws)值越大,则长期积累下的总收益也会更高。

标准差(np.std(ws)) 是衡量投资组合风险的重要指标。它综合考虑了资产收益之间的差异性,在一定程度上反映了投资组合的整体波动水平。具体而言,在其他条件相同的情况下,标准差越大表明投资组合的财富变动幅度越大;反之,则表明投资组合的风险控制能力越强。需要注意的是,在实际应用中需要结合其他因素综合分析其对整体投资策略的影响

  1. 夏普比率(np.mean(ws)/np.std(ws))
    该比率衡量的是每单位风险(标准差)所对应的平均收益水平。
    该比率表明,在相同的潜在风险下可以实现更高的预期收益;同时,在追求相同收益的情况下,可以通过降低风险来优化投资组合。

  2. 效用值 (utility)

对比策略

  1. 最优代理(Optimal Agent)
    论文中的报价策略是基于以下公式:
在这里插入图片描述

在论文实现过程中,在opti-agent模型中生成的价格偏差也是经过计算得出的结果,在此过程中也考虑到了库存方面的潜在风险因素。其中减去的部分反映了市场制作者基于自身风险管理态度以及剩余时间对报价进行调整。当市场制作者的风险厌恶程度较高或剩余时间较为紧迫时,在报价决策上会更加注重规避潜在损失的可能性。此外,在讨论价格波动性时需特别注意的是:σ代表价格波动幅度这一指标,在金融领域中是一个重要的度量参数;具有较高的σ值意味着价格变动幅度较大,在实际操作中需要格外谨慎地管理库存水平以避免潜在的风险损失。

symmetric agent refers to an entity that sets the bid and ask prices at equal distances from the midpoint of a security's price range, consistently ignoring variations in market dynamics and refraining from exploiting any asymmetric information advantages.

实验

该代码位于以下位置:https://github.com/mselser95/optimal-market-making 通过这一资源能够重现论文中的实验结果

  • DQN智能体在资产规模方面接近最佳代理,在平均资产规模上略低于对称代理(symmetry proxy),但其财富波动性较低。
  • DQN智能体的效用评估值最低且几乎达到理论上的极限水平。
在这里插入图片描述

横坐标: 该财富量是策略积累的结果。
纵坐标: 这一数值反映了由特定财富区间决定的事件频次。

Optimal Agent Symmetric DQN
Mean Wealth 47.79 57.67 53.74
Std. Dev. Wealth 6.09 11.86 6.97
Sharpe Ratio 7.83 4.86 7.71
Mean Cum. Reward 22.46 -7.17 29.04
Utility Estimate -2.63e-9 -4.34e-6 -2.33e-10

本研究设定的初始值设定为s₀等于100,在后续时间段内将基于前一数值加上随机扰动项σ乘以√Δt进行生成(其中当Δt取值为零点零零五时,则该扰动幅度约为零点一四)。在实验过程中旨在调整输入数据以模拟市场环境的变化情况。使用的时间序列数据来源包括上海证券交易所的日度交易数据序列,并采用每分钟采样的频率获取相关时间序列样本。具体而言,在初始阶段我们将时间步长Δt设定为一,并令总模拟时段设为237个单位时间单位长度。考虑到实际市场中的价格波动具有显著性这一特点,在后续实验中将参数a的值设定至新的数值设定a等于零点三。

数据样例:
2024-08-26 09:30:00+08:00,2856.448486328125,2860.654541015625,2853.00244140625,2853.00244140625,2853.00244140625,911119000
2024-08-26 09:31:00+08:00,2853.650146484375,2854.696044921875,2852.7041015625,2852.7041015625,2852.7041015625,437619900

在这里插入图片描述

对比各项指标基本符合论文的规律:

Optimal Agent Symmetric DQN
Mean Wealth 10.52 14.74 11.376
Std. Dev. Wealth 4.32 3.708 3.684
Sharpe Ratio 2.434 3.976 3.088
Mean Cum. Reward -19.86 -22.09 -7.78
Utility Estimate -0.0235 -0.0024 -0.0172

小结

该论文主要致力于通过强化学习方法来处理做市问题,并作为阅读笔记的一部分重点回顾了基于深度Q网络(DQN)的实验结果。实验结果表明,在某些关键指标上,DQN方法表现出色。然而,在将模拟环境中的价格数据替换为真实市场数据时,默认情况下虽然仍可观察到策略的优势变化但仍需注意其局限性:尽管在标准差这一关键指标之外其他指标均有所下降这一现象值得关注:这可能归因于真实市场环境的数据具有更高的复杂性此外在时间范围方面进行调整时发现适当缩短时间间隔有助于减少波动幅度最后在训练样本数量方面也存在一定的限制

全部评论 (0)

还没有任何评论哟~