强化学习工具箱
Concevez et entraînez des politiques grâce à l ' tissage par enforcement
强化学习工具箱™提供功能和块为entraîner的政策和使用的算法的学习指导DQN, A2C和DDPG。你们可以使用这些政策来实现implémenter des contrôleurs和systèmes décisionnels pour des systèmes complex来实现机器人或systèmes autonomous。Vous pouvez implémenter les politiques à l 'aide de réseaux neuronaux promonds, de polynômes,还有查找表。
在工具箱中,你可以看到entraîner政治在环境中渗透représentés par des modèles MATLAB®ou仿万博1manbetx真软件®. 您是算法估价师,测试超参数和评估进度的差异。请欣赏我们的表演,请欣赏云端、集群和GPU(avec并行计算工具箱)上的模拟™ et-MATLAB并行服务器™).
En passant par format de modèle ONNX™,vous pouvez importer des politiques existantes à partir d’environnededeep Learning telels que TensorFlow™Keras et PyTorch (avec Deep Learning Toolbox™)。Vous pouvez générer du code optimisé C, c++ et CUDA pour déployer des politiques entraînées sur des microcontrôleurs et des GPU。
“工具箱”包括référence应用程序的例子,在contrôleurs的应用程序的concevoir的加强。
在知道加上:
算法改进
使用公共深度Q网络(DQN)的算法实现代理,最佳影评人(A2C)ou Deep Deterministic Policy Gradients (DDPG)。Utilisez des modèles pour implémenter des agents personnalisés afin d 'entraîner des politiques。
Représentation des politiques和函数à l 'aide de réseaux neuronaux proffs
利用政治基础和神经系统综合设施来完成广泛的ESPACE行动。完成政治基础和深度学习工具箱的源代码。确保环境的互操作性eep学习。
blos S万博1manbetximulink pour les agents
Implémentez和entraînez是在Simulink中进行强化的人员。万博1manbetx
环境模拟与模拟景观万博1manbetx
Utilisez des modèles 万博1manbetxSimulink et Simscape™pour représenter un environment。Spécifiez观察,行动,以及在modèle里的récompense。
MATLAB environnement)
利用基金会和班级为联合国环境报告提供服务。观察、行动和变量在MATLAB中的补偿。
计算distribué et accélération multicœurs
Accélérez l ' tissage en exécutant des模拟en parallèle sur des ordinateurs multicœurs, des资源云和计算簇à l 'aide de Parallel Computing Toolbox et etMATLAB并行服务器.
GPU加速
Accélérez l ' apprentice sage et l 'inférence de réseaux neuronaux profond à l 'aide des GPU NVIDIA®高级性能。用MATLAB用并行计算工具箱NVIDIA兼容CUDA®圆点Capacité de calcal 3.0 ou supérieure.
一代德代码
AvecGPU编码器™,générez du code CUDA optimisépart de code MATLAB représentant des politique entraînées。Générez du code C/C++l'aide de deMATLAB编码器™Pour déployer des politiques。
万博1manbetx支持MATLAB编译器
MATLAB编译器™等MATLAB编译器SDK™vous permettent de déployer des politiques entraînées sous forme de bibliothèques partagées C/ c++, d 'assemblages Microsoft®.NET、de类和Java®et de packages Python®.
总理不是
Implémentez des contrôleurs basés sur l ' tissage par enforce pour problèmes tel que l ' équilibrage d ' un pendle inversé, la navigation ans an problème Grid World ou le maintien en équilibre d ' un pendle inversé sur un战车。
应用于管道自动化
Concevez des contrôleurs pour les systèmes de régulation adaptivesde vitesse并保持轨迹。
机器人
Leopez DeS.Leurs Lours倾倒机器人GR。
剂TD3
créez des agents Deep Deterministic Policy Gradient (TD3) à double retard qui présentent souvent une vitesse d’tissage et des performance supérieures à celles des agents DDPG
新代理人的行动空间是连续的
利用代理PPO、TD3、AC和PG继续行动
政治LSTM
长期-短期记忆(LSTM)是神经系统政治的一部分
莱斯领事馆注释反版本我们可以通过fonctionnalités和相应的函数来了解。