EMMANOUIL Tzorakoleftherakis,MathWorks公司
强化学习工具箱™提供MATLAB®功能和Simulink万博1manbetx®块使用强化学习算法,包括DQN,A2C,和DDPG培训政策。该工具箱可以让您实现控制器和决策系统的复杂应用,如机器人,自动驾驶汽车等。
您可以使用代表深层神经网络,多项式,或查找表的政策和价值功能。通过使强化学习代理商列车政策与MATLAB或Simulink中所创建的环境进行交互。万博1manbetx评估内置和自定义算法,实验超参数设置和监控训练进度。加快通过并行多核的CPU,GPU,计算机集群和云资源的模拟和计算(并行计算工具箱™和MATLAB并行服务器™)的培训。
您可以从深度学习的框架,如TensorFlow™Keras和PyTorch通过ONNX™模型格式(与深度学习工具箱™)导入现有的政策。生成优化的C,C ++,和CUDA代码部署在嵌入式平台上的培训政策。该工具箱包括用于使用增强学习来设计机器人控制器和自动驾驶应用参考例。
强化学习工具箱提供的功能和模块,让您实现控制器和决策算法的自治系统,如机器人和自动驾驶汽车。
该工具箱使您能够通过工作在强化学习工作流程的所有阶段,从创建环境和代理政策培训和部署,以MATLAB和Simulink。万博1manbetx
建立深层神经网络策略和深层网络设计者值的函数或程序有内置功能。
除了神经网络,多项式和查找表也都支持。万博1manbetx
受政策相结合定义代理内置训练算法,如演员评论家方法或深Q网络。
您可以创建两个MATLAB和Simulink环境。万博1manbetx
在Si万博1manbetxmulink中,创建一个描述环境动力学和奖励信号的模型。
使用代理块接口与代理环境模型。
对于MATLAB环境中,您可以根据需要与提供的模板,并进行修改开始。
您也可以从多个预定义MATLAB和Simulink环境中进行选择。万博1manbetx
要培养一个代理,指定培训选项,比如停止准则和使用代理和环境模型开始训练过程。
并行计算工具箱和MATLAB并行服务器让你加速通过并行仿真和计算培训。
在培训过程中,剧集管理器可帮助您直观地监视训练进度,并提供汇总统计。
培训完成后,您可以验证与模拟环境训练的代理,你可以生成CUDA和C / C ++代码部署训练有素的政策。
有关强化学习工具箱的详细信息,请参阅文档和示例。
开始使用今天强化学习工具箱的免费试用。