亚历克斯·鲁米,马修斯
这段视频显示了一位自动交易员,他能够决定何时对冲欧洲看涨期权合约,从而使用强化学习在交易成本和对冲风险之间进行权衡。
在本视频中,我将讨论如何构建一个自动交易员,能够在存在交易成本的情况下,使用强化学习来决定何时对欧洲看涨期权合约进行对冲。
可以把套期保值看作是家庭保险,但在金融领域,我们用套期保值来降低股票价格波动带来的风险。
使用Black-Scholes公式中的增量计算每个时间步的股票交易量。因此,如果看涨期权适用于100股MLB股票,且delta为0.1,则交易员需要做空10股MLB股票。
在现实世界中,交易成本是存在的,在观察市场时,知道在期权的生命周期中何时进行对冲是至关重要的,以便在交易成本和对冲风险之间进行权衡。
让我们看看如何将强化学习应用于套期保值。
代理人观察金融市场的输入,如股票价格,到期日,期权价格,股票持有量,并采取是否对冲的行动。如果代理人套期保值,新股票持有量是-51,用delta计算。因此,代理卖出了6支股票,产生了3美元的交易成本。如果代理商不进行对冲,那么其持有的股票将保持不变。
一段时间后,股票价格移动至99.40美元。代理人观察股票价格变化、期权价格变化、支付的交易成本以及与总损益相关的报酬所产生的总损益。
在强化学习中,代理人将通过尝试和错误学习,通过选择在期权有效期内何时对冲来最大化累积回报。
RL设置由一个代理和一个环境组成。环境向代理发送一个状态,代理将采取一个动作作为响应。代理将基于它所返回的奖励来评估它的最后一个行动。循环继续进行,直到环境发送一个终端状态(例如选项的成熟度),从而结束该集。在每一集之后,代理将学会采取行动以最大化累积奖励。
MATLAB使环境的设置和强化学习组件的设计变得更加容易。
重置函数返回环境的初始状态。它在每一次训练开始时被调用。
step函数指定环境如何根据代理采取的操作进入下一个状态。
观察包括股票价格,到期日,以及代理人的股票持有量。
行动在于是否对冲。
观察、行动、重置和步骤功能构成了环境。
agent由策略和强化学习算法组成。策略是观察和行动之间的映射函数。它可以是通过指定层、激活函数和神经元设计的神经网络。
强化学习算法不断更新策略参数,并将找到最大化累积奖励的最优策略。
我们对代理进行了一个小时的培训,我们可以看到代理已经学会了随着时间的推移最大化累积回报。
结果,一个训练有素的经纪人表现优于一个使用delta对冲的交易员和一个决定根本不对冲的交易员。
我们模拟一个随机的股票路径,当所有时期都被对冲时,损失是120美元。该代理人对冲了38个周期,没有交易12次,损失是55美元。
谢谢收看。
您还可以从以下列表中选择网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区网站未针对您所在地的访问进行优化。