金融中的强化学习

亚历克斯·Roumi MathWorks

这个视频展示了一个自动交易员，他能够决定何时对冲一个欧洲看涨期权合约，在交易成本和对冲风险之间进行权衡，使用强化学习。

在本视频中，我将讨论如何构建一个自动化交易员，该交易员能够在存在交易成本的情况下，使用强化学习来决定何时对冲欧洲看涨期权合约。

将套期保值视为家庭保险，但在金融领域，我们使用套期保值来降低股票价格波动带来的风险。

每个时间步骤的股票交易量使用布莱克-斯科尔斯公式的delta来计算。因此，如果看涨期权为100股MLB股票，delta为0.1，则需要做空10股MLB股票。

在存在交易成本的现实场景中，在观察市场时，了解在期权有效期内何时进行套期保值变得至关重要，以便在交易成本和套期保值风险之间进行权衡。

让我们看看如何在对冲中应用强化学习。

代理人正在观察金融市场的输入，如股票价格、到期时间、期权价格和股票持有量，并采取是否对冲的行动。如果代理人对冲，则使用delta计算的新股票持有量为-51。因此，代理人出售了6支股票，产生了3美元的交易成本。如果代理人没有对冲，持有量保持不变。

一段时间后，股价升至99.40美元。代理人观察由股票价格变化、期权价格变化、所支付的交易费用和与总盈亏相关的报酬。

在强化学习中，代理将通过尝试和错误来学习，通过选择在期权生命周期内何时对冲来最大化累积回报。

RL设置由一个代理和一个环境组成。环境向代理发送一个状态，代理将采取一个动作作为响应。代理将根据其返回的奖励评估其最后一个动作。循环将继续进行，直到环境发送一个终端状态，如选项的成熟度，结束该事件。在每次事件结束后e代理人将学会采取行动，最大限度地提高累积报酬。

MATLAB使建立环境和设计强化学习组件变得更容易。

reset函数返回环境的初始状态。它在每次训练开始时被调用。

step函数指定环境如何根据代理所采取的操作进展到下一个状态。

观察结果包括股票价格、到期时间和代理人持有的股票。

关键是要不要对冲。

观察、操作、复位和步进功能构成环境。

该agent由策略和强化学习算法组成。策略是观察和操作之间的映射功能。它可以是通过指定层次、激活功能和神经元而设计的神经网络。

强化学习算法不断更新策略参数，并找出累积奖励最大化的最优策略。

我们训练这个代理一个小时，我们可以看到，随着时间的推移，这个代理学会了最大化累积回报。

结果，一个训练有素的经纪人的表现超过了一个使用delta套期保值的交易员和另一个决定根本不套期保值的交易员。

我们模拟了一个随机股票路径，当所有时段都对冲时，损失为120美元。代理对冲了38个时段，12次未交易，损失为55美元。

感谢您的收看。