强化学习工具箱

强化学习工具箱

Diseño y entrenamiento de políticas con强化学习

Mas给:

代理强化学习

Cree y配置代理de强化学习para entrrenar políticas en MATLAB y Simulink。万博1manbetx使用强化学习整合算法和个性化算法。

算法的修正

Deep Q-Network (DQN), Deep Deterministic Policy Gradient (DDPG), Proximal Policy Optimization (PPO) and otros algorithm itmos integrados。利用plantilla para desarrollar agents personizados para entrrenar políticas。

病毒变种,包括SARSA, SAC, DDPG和otros。

强化学习工具箱算法。

App强化学习设计师

Diseñe, entrene y simule interactivamente agents de reinforcement learning。输出代理entrenados的MATLAB para su后路输出。

Representación de funciones de valores y políticas con redes深奥神经元

空间综合系统estado-acción,定义políticas神经系统研究方法programática,计算程序深度学习工具箱,形式上的互动深度网络设计器.Si lo prefiere, puede utility la arquitectura red predeterminada sugerida por la toolbox。Inicialice la política实用的el aprendizaje por imitación para加速el entrenamiento。导入和导出模型的ONNX para许可la互操作性con otros marcos de深度学习。

强化学习单智能体和多智能体与Simulink万博1manbetx

Cree y entrene agents de reinforcement learning en S万博1manbetximulink con el bloque RL Agent。Entrene varios agents simultáneamente(强化学习多代理)en Simulink utilzando varias inst万博1manbetxancias del bloque RL代理。

Modelo de 万博1manbetxSimulink con unbloque RL代理。

Bloque RL代理de Simul万博1manbetxink。

Modelado de entornos

Cree modelos de enterorno de MATLAB和万博1manbetxSimulink。描述la dinámica系统和比例señales de observación报酬para el enrenamiento de agents。

Entornos de 万博1manbetxSimulink y Simscape

使用Simuli万博1manbetxnk y Simscape™para crear un modelo de un entorno。特别是señales de observación, acción y报酬在模型中。

仿真机器人模型bípedo。万博1manbetx

仿真机器人模型bípedo。万博1manbetx

Entornos de MATLAB

利用函数和类的MATLAB para modelar unentorno。具体的las变量de observación, acción y recompensa en el archivo de MATLAB。

在MATLAB中,第三阶自由坐标系下。

一种基于MATLAB的自由之路。

Aceleración del entrenamiento

在中间的位置cálculo在GPU,在分配的位置。

Aceleración por GPU

GPU NVIDIA的深度神经推理程序®《歌唱之歌》。Puede utility MATLAB con并行计算工具箱y la mayoría de las GPU NVIDIA habilitadas para CUDA con una capacidad de cálculo 3.0 o superior。

硬件GPU。

这是一种变奏。

Generación y despliegue de código

实施políticas entrenadas en dispositivos embidos o intégrelas enuna amplia gama de entornos de producción。

Generación de código

UtiliceGPU编码器™para generar código CUDA optimizado a partir de código de MATLAB que representation redes entrenadas。Genere código C/ c++ conMATLAB编码器™Para desplegar políticas。

Ventana de configuración de GPU编码器。

Generación de código CUDA con GPU Coder。

Soporte de MATLAB编译器

UtiliceMATLAB编译器™yMATLAB编译SDK™para desplegar políticas entrenadas como aplicaciones independdientes, librerías C/ c++ compartidas, ensamblos Microsoft®.NET, Java类®y paquetes de Python®

MATLAB编译器para crear una aplicación independdiente。

保护我们的伙伴políticas独立方案。

引证工作

Diseñe控制程序和算法的决策和应用程序robótica, conducción autónoma, calibración y planificación, entre otras。

首先出来的

Descubra cómo desarrollar políticas de强化学习para problem tales como invertir un péndulo简单,导航un entrorno de网格世界,平衡un péndulo invertido, y resolver procesos de decisión genéricos de Markov。

调整,calibración y planificación

Diseñe políticas de强化学习para aplicaciones de ajuste, calibración y planificación。

Sistema de distribución de agua con trres bombas, depósito y tanque。

问题asignación de递归para la distribución de agua。

意德vídeos清醒的强化学习

意德vídeos清醒的强化学习

Aprenda más清醒强化学习con esta serie de vídeos。