强化学习工具箱

Concevez et entraînez des politiques grâce à l ' tissage par enforcement

看到拉视频

d’é估价版

强化学习工具箱™提供功能和块为entraîner的政策和使用的算法的学习指导DQN, A2C和DDPG。你们可以使用这些政策来实现implémenter des contrôleurs和systèmes décisionnels pour des systèmes complex来实现机器人或systèmes autonomous。Vous pouvez implémenter les politiques à l 'aide de réseaux neuronaux promonds, de polynômes，还有查找表。

在工具箱中，你可以看到entraîner政治在环境中渗透représentés par des modèles MATLAB^®ou仿万博1manbetx真软件^®. 您是算法估价师，测试超参数和评估进度的差异。请欣赏我们的表演，请欣赏云端、集群和GPU（avec并行计算工具箱）上的模拟™ et-MATLAB并行服务器™).

En passant par format de modèle ONNX™，vous pouvez importer des politiques existantes à partir d’environnededeep Learning telels que TensorFlow™Keras et PyTorch (avec Deep Learning Toolbox™)。Vous pouvez générer du code optimisé C, c++ et CUDA pour déployer des politiques entraînées sur des microcontrôleurs et des GPU。

“工具箱”包括référence应用程序的例子，在contrôleurs的应用程序的concevoir的加强。

在知道加上:

电子书
强化学习avec MATLAB：环境基础和配置概念

连接到

徒弟特工

Implémentez des agents MATLAB et 万博1manbetxSimulink pour entraîner des politiques représentées par des réseaux neuronaux profands。利用算法d ' apprentice tisage par enforcement prédéfinis ou personnalisés。

算法改进

使用公共深度Q网络（DQN）的算法实现代理，最佳影评人(A2C)ou Deep Deterministic Policy Gradients (DDPG)。Utilisez des modèles pour implémenter des agents personnalisés afin d 'entraîner des politiques。

深度Q网络

代理深度确定性策略梯度

个人代理信贷

代理人组成一个政治和一个算法。

Représentation des politiques和函数à l 'aide de réseaux neuronaux proffs

利用政治基础和神经系统综合设施来完成广泛的ESPACE行动。完成政治基础和深度学习工具箱的源代码。确保环境的互操作性eep学习。

神经系统发育报告的确认和输入

Création d 'un agent à l 'aide de Deep Network Designer

应用深度网络设计器

3:54

Développer, visualizer和modifier des réseaux de Deep Learning de manière interactive

blos S万博1manbetximulink pour les agents

Implémentez和entraînez是在Simulink中进行强化的人员。万博1manbetx

Création d 'un environment S万博1manbetximulink and apprentice tisage d 'un agent

集团Sim万博1manbetxulink RL代理

Bulc D'Apple D'PalPrimthasePar RealSimultSimulink S万博1manbetximulink。

Modelisation de l 'environnement

Créer des modèles d’environnement在MATLAB和Simulink万博1manbetx中。Décrivez la dynamique de systèmes, ajoutez des observations and des signaux de récompense pour les agents d ' apprentice tisage。

环境模拟与模拟景观万博1manbetx

Utilisez des modèles 万博1manbetxSimulink et Simscape™pour représenter un environment。Spécifiez观察，行动，以及在modèle里的récompense。

Création d ' environments 万博1manbetxSimulink pour l ' tissage par加强

环境模拟计划万博1manbetx

Intégration de fonctionnalités tierces à 万博1manbetxSimulink

Modèle d’environment Si万博1manbetxmulink pour un pendle inversé。

MATLAB environnement)

利用基金会和班级为联合国环境报告提供服务。观察、行动和变量在MATLAB中的补偿。

Création d’environments MATLAB pour l’apprentice tissage par加强

MATLAB predefinis environnement)

Intégration de fonctionnalités tierces à MATLAB

Le Reinforcement Learning dans l'industrie financière(15)

环境MATLAB倒摆inversé sur战车。

行政许可

Accélérez l ' apprentice tissage à l 'aide d 'un GPU, d 'un cloud et de resources informatiques distribuées。

计算distribué et accélération multicœurs

Accélérez l ' tissage en exécutant des模拟en parallèle sur des ordinateurs multicœurs, des资源云和计算簇à l 'aide de Parallel Computing Toolbox et etMATLAB并行服务器．

rlTrainingOptions

代理学徒，MATLAB à，计算助手，parallèle

联合国代理模拟计算辅助信息万博1manbetx

Accélérez l ' apprentice tisage à l 'aide du calcul parallèle。

GPU加速

Accélérez l ' apprentice sage et l 'inférence de réseaux neuronaux profond à l 'aide des GPU NVIDIA^®高级性能。用MATLAB用并行计算工具箱NVIDIA兼容CUDA^®圆点Capacité de calcal 3.0 ou supérieure．

我们有représentation的选择

Accélérez我的学徒à我的助手GPU。

Génération et déploiement解码

Déployez des politiques entraînées dans des systèmes embarqués ou intégrez-les dans un vaste éventail de systèmes de production。

一代德代码

AvecGPU编码器™，générez du code CUDA optimisépart de code MATLAB représentant des politique entraînées。Générez du code C/C++l'aide de deMATLAB编码器™Pour déployer des politiques。

Déploiement de politiques d’apprentice tissage par enforce entraînées

Générez du code CUDA avec de GPU编码器。

万博1manbetx支持MATLAB编译器

MATLAB编译器™等MATLAB编译器SDK™vous permettent de déployer des politiques entraînées sous forme de bibliothèques partagées C/ c++， d 'assemblages Microsoft^®.NET、de类和Java^®et de packages Python^®．

一揽子和部分的政治是独立的方案。

例子参考

大家可以看到contrôleurs à，机器人的强化学徒，机器人和机器人的强化学徒，systèmes。

总理不是

Implémentez des contrôleurs basés sur l ' tissage par enforce pour problèmes tel que l ' équilibrage d ' un pendle inversé， la navigation ans an problème Grid World ou le maintien en équilibre d ' un pendle inversé sur un战车。

DQN à rever et à équilibrer un pendle inversé

agent Q-Learning à résoudre des problèmes Grid World

政策梯度à maintenir en équilibre un pendle inversé sur un战车

5：04

Reinforcement Learning pour un penddule inversé avec des données images

Résolution d 'un problème网格世界。

应用于管道自动化

Concevez des contrôleurs pour les systèmes de régulation adaptivesde vitesse并保持轨迹。

联合国代理DDPG对葡萄适应症的监管

一个人的学徒，DQN，为保持轨迹提供帮助

强化学习为永磁同步电机的指挥向量(12)

徒弟可以在système上学习轨迹。

机器人

Leopez DeS.Leurs Lours倾倒机器人GR。

机器人飞行的学徒

步行机器人信息

电力和天然气行业的配置：在洛杉矶的强化学习工作流程(21:38)

评论entraîner votre机器人（avec le深度强化学习）(37:08)

在一个机器人的市场上做学徒。

Nouveautes

剂TD3

créez des agents Deep Deterministic Policy Gradient (TD3) à double retard qui présentent souvent une vitesse d’tissage et des performance supérieures à celles des agents DDPG

新代理人的行动空间是连续的

利用代理PPO、TD3、AC和PG继续行动

政治LSTM

长期-短期记忆（LSTM）是神经系统政治的一部分

莱斯领事馆注释反版本我们可以通过fonctionnalités和相应的函数来了解。

资源supplémentaires pour强化学习工具箱

Découvrez les nouveautés de la dernière版本

这是一个免费的版本

Bénéficiez d'une version d'évaluation de 30 jours。

连接到

你不能把它保存在où commencer ?

评论我们的助手 ?

需求方未设计联系人联合国商业

你们有问题吗?

联系équipe technique de« Reinforcement Learning Toolbox »。