强化学习工具箱

Concevez et entraînez des politiques grâce à l ' tissage par enforcement

强化学习工具箱™提供功能和块为entraîner的政策和使用的算法的学习指导DQN, A2C和DDPG。你们可以使用这些政策来实现implémenter des contrôleurs和systèmes décisionnels pour des systèmes complex来实现机器人或systèmes autonomous。Vous pouvez implémenter les politiques à l 'aide de réseaux neuronaux promonds, de polynômes,还有查找表。

在工具箱中,你可以看到entraîner政治在环境中渗透représentés par des modèles MATLAB®ou仿万博1manbetx真软件®. 您是算法估价师,测试超参数和评估进度的差异。请欣赏我们的表演,请欣赏云端、集群和GPU(avec并行计算工具箱)上的模拟™ et-MATLAB并行服务器™).

En passant par format de modèle ONNX™,vous pouvez importer des politiques existantes à partir d’environnededeep Learning telels que TensorFlow™Keras et PyTorch (avec Deep Learning Toolbox™)。Vous pouvez générer du code optimisé C, c++ et CUDA pour déployer des politiques entraînées sur des microcontrôleurs et des GPU。

“工具箱”包括référence应用程序的例子,在contrôleurs的应用程序的concevoir的加强。

在知道加上:

徒弟特工

Implémentez des agents MATLAB et 万博1manbetxSimulink pour entraîner des politiques représentées par des réseaux neuronaux profands。利用算法d ' apprentice tisage par enforcement prédéfinis ou personnalisés。

算法改进

使用公共深度Q网络(DQN)的算法实现代理,最佳影评人(A2C)ou Deep Deterministic Policy Gradients (DDPG)。Utilisez des modèles pour implémenter des agents personnalisés afin d 'entraîner des politiques。

代理人组成一个政治和一个算法。

Représentation des politiques和函数à l 'aide de réseaux neuronaux proffs

利用政治基础和神经系统综合设施来完成广泛的ESPACE行动。完成政治基础和深度学习工具箱的源代码。确保环境的互操作性eep学习。

blos S万博1manbetximulink pour les agents

Implémentez和entraînez是在Simulink中进行强化的人员。万博1manbetx

Bulc D'Apple D'PalPrimthasePar RealSimultSimulink S万博1manbetximulink。

Modelisation de l 'environnement

Créer des modèles d’environnement在MATLAB和Simulink万博1manbetx中。Décrivez la dynamique de systèmes, ajoutez des observations and des signaux de récompense pour les agents d ' apprentice tisage。

环境模拟与模拟景观万博1manbetx

Utilisez des modèles 万博1manbetxSimulink et Simscape™pour représenter un environment。Spécifiez观察,行动,以及在modèle里的récompense。

Modèle d’environment Si万博1manbetxmulink pour un pendle inversé。

环境MATLAB倒摆inversé sur战车。

行政许可

Accélérez l ' apprentice tissage à l 'aide d 'un GPU, d 'un cloud et de resources informatiques distribuées。

计算distribué et accélération multicœurs

Accélérez l ' tissage en exécutant des模拟en parallèle sur des ordinateurs multicœurs, des资源云和计算簇à l 'aide de Parallel Computing Toolbox et etMATLAB并行服务器

Accélérez l ' apprentice tisage à l 'aide du calcul parallèle。

GPU加速

Accélérez l ' apprentice sage et l 'inférence de réseaux neuronaux profond à l 'aide des GPU NVIDIA®高级性能。用MATLAB用并行计算工具箱NVIDIA兼容CUDA®圆点Capacité de calcal 3.0 ou supérieure

Accélérez我的学徒à我的助手GPU。

Génération et déploiement解码

Déployez des politiques entraînées dans des systèmes embarqués ou intégrez-les dans un vaste éventail de systèmes de production。

一代德代码

AvecGPU编码器™,générez du code CUDA optimisépart de code MATLAB représentant des politique entraînées。Générez du code C/C++l'aide de deMATLAB编码器™Pour déployer des politiques。

Générez du code CUDA avec de GPU编码器。

万博1manbetx支持MATLAB编译器

MATLAB编译器™MATLAB编译器SDK™vous permettent de déployer des politiques entraînées sous forme de bibliothèques partagées C/ c++, d 'assemblages Microsoft®.NET、de类和Java®et de packages Python®

一揽子和部分的政治是独立的方案。

例子参考

大家可以看到contrôleurs à,机器人的强化学徒,机器人和机器人的强化学徒,systèmes。

总理不是

Implémentez des contrôleurs basés sur l ' tissage par enforce pour problèmes tel que l ' équilibrage d ' un pendle inversé, la navigation ans an problème Grid World ou le maintien en équilibre d ' un pendle inversé sur un战车。

应用于管道自动化

Concevez des contrôleurs pour les systèmes de régulation adaptivesde vitesse并保持轨迹。

徒弟可以在système上学习轨迹。

Nouveautes

剂TD3

créez des agents Deep Deterministic Policy Gradient (TD3) à double retard qui présentent souvent une vitesse d’tissage et des performance supérieures à celles des agents DDPG

新代理人的行动空间是连续的

利用代理PPO、TD3、AC和PG继续行动

政治LSTM

长期-短期记忆(LSTM)是神经系统政治的一部分

莱斯领事馆注释反版本我们可以通过fonctionnalités和相应的函数来了解。