亚历克斯·Roumi MathWorks
这个视频展示了一个自动交易员,他能够决定何时对冲一个欧洲看涨期权合约,在交易成本和对冲风险之间进行权衡,使用强化学习。
在此视频中,我将谈论建立一个自动交易者,可以在使用加强学习时在存在交易成本的情况下对欧洲呼叫期权合同进行决定。
将套期保值视为家庭保险,但在金融中,我们使用对冲降低股票价格运动的风险。
每个时间步骤的股票交易量使用布莱克-斯科尔斯公式的delta来计算。因此,如果看涨期权为100股MLB股票,delta为0.1,则需要做空10股MLB股票。
在现实世界的情景中,存在交易成本,在观察市场的同时,知道何时在持续期间对冲在交易成本和对冲风险之间的选择期间对冲。
让我们看看如何在对冲中应用强化学习。
代理商正在观察金融市场投入,如股价,时间到期时间,期权价格和股票持股,并采取了对冲或不采取行动。如果代理人对冲,则使用Delta计算新库存持股。因此,该代理商已售出6种库存,以造成3美元的交易成本。如果代理人没有对冲,则控股保持不变。
一段时间后,股价升至99.40美元。代理人观察由股票价格变化、期权价格变化、所支付的交易费用和与总盈亏相关的报酬。
在强化学习中,代理将通过尝试和错误来学习,通过选择在期权生命周期内何时对冲来最大化累积回报。
RL安装程序由代理和环境组成。环境向代理发送状态,该代理是响应的动作。代理将根据返回的奖励评估其上次动作。循环在环境发送终端状态之前继续进行,例如结束剧集的选项的成熟度。每次发作后,代理将学会采取最大化累积奖励的行动。
MATLAB使建立环境和设计强化学习组件变得更容易。
reset函数返回环境的初始状态。它在每次训练开始时被调用。
step函数指定环境如何根据代理所采取的操作进展到下一个状态。
观察结果包括股票价格,成熟时间和代理人的股票持股。
关键是要不要对冲。
观测,操作和重置和阶跃函数形成环境。
该agent由策略和强化学习算法组成。策略是观察和操作之间的映射功能。它可以是通过指定层次、激活功能和神经元而设计的神经网络。
强化学习算法不断更新策略参数,并找出累积奖励最大化的最优策略。
我们训练这个代理一个小时,我们可以看到,随着时间的推移,这个代理学会了最大化累积回报。
结果,一个训练有素的经纪人的表现超过了一个使用delta套期保值的交易员和另一个决定根本不套期保值的交易员。
我们模拟了一个随机储存路径,当所有时期都被羽毛时,损失是120美元。该代理人对冲38个时期,并没有交易12次,损失是55美元。
感谢您的收看。
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。