强化学习工具箱

주요업데이트

强化学习工具箱

강화학습을사용하여정책을설계하고훈련할수있습니다。

시작하기:

강화학습에이전트

강화학습에이전트를생성하고구성하여matlab및simulin万博1manbetxk에서정책을할수있습니다。내장된강화학습알고리즘을사용사하거나사지정강화학습을을개발할있습니다。

강화학습알고리즘

DQN(深Q-Network),DDPG(深度确定性政策梯度),PPO(近端策略优化)및및내장알고리즘사용하여에이전트를를만들수수템플릿을사용하여정책을훈련사용자에이전트를를개발할수수

钢筋学习工具箱에서사용가능한한훈련。

加固学习设计师앱

대화형방식으로강화학습에이전트를설계,훈련,시뮬레이션할수있습니다。향후사용및배포를위해훈련된에이전트를MATLAB으로내보낼수있습니다。

심층신경망을사용한정책및가치함수표현

대규모상태——행동공간을사용하는복잡한시스템의경우深度学习工具箱의계층을사용하거나대화형방식의심층신경망디자이너를통해심층심층신경망정책정책프로그래밍방식으로정의정의할수수또는툴박스에서제안하는기본아키텍처아키텍처사용할수도있습니다。모방학습으로정책을초기화하여을가속화할수있습니다。다른다른딥러닝프레임워크와와의상호을을위해위해위해을을을을오고오고오고내보낼수수

万博1manbetxsimulink의단일에이전트및및에이전트강화강화

RL代理블록을사용하여仿真软件에서강万博1manbetx화학습에이전트를만들고훈련할수있습니다。여러개의RL代理블록인스턴스를사용하여仿真软件에서동시에여万博1manbetx러에이전트를훈련(다중에이전트강화학습)할수있습니다。

万博1manbetxSimulink의강화학습에이전트블록。

환경모델링

MATLAB및仿真万博1manbetx软件환경모델을만들수있습니다。시스템동특성을설명하고훈련에이전트에관측값및보상신호를제공할수있습니다。

万博1manbetx仿真软件및Simscape환경

万博1manbetx仿真软件및Simscape™를사용하여환경모델을만들수있습니다。모델내에서관측값,행동및보상신호를지정할수있습니다。

이족보행로봇을위한仿真软件万博1manbetx환경모델。

matlab환경

MATLAB함수와클래스를사용하여환경을모델링할수있습니다。MATLAB파일내에서관측값,행동및보상변수를지정할수있습니다。

3자유도로켓을위한MATLAB환경。

훈련가속화

GPU,클라우드및분산컴퓨팅리소스사용하여하여훈련속도를높일수수

병렬연산을사용하여훈련속도를높입니다。

GPU가속

고성능英伟达®GPU를사용하여심층신경망훈련및추론속도를높일수있습니다。并行计算工具箱와대부분의计算能力3.0이상CUDA지원NVIDIA GPU와함께MATLAB을사용할수있습니다。

GPU를사용하여훈련을가속화합니다。

코드생성및배포

훈련된정책정책을임베디드기기에배포하거나광범위한프로덕션시스템통합할수수수통합할수수

코드생성

GPU编码器™를사용하면훈련된정책을표현하는MATLAB코드에서최적화된CUDA코드를생성할수있습니다。MATLAB编码器™를사용하여정책배포를를c / c ++코드를생성수수있습니다。

GPU编码器를사용하여CUDA코드를생성합니다。

matlab编译器지원

MATLAB编译器™MATLAB编译器SDK™를사용하여훈련된정책을독립형응용프로그램,C / c++공유라이브러리,微软®net어셈블리,Java®클래스및python.®패키지로배포할수있습니다。

정책을독립형프로그램으로패키징하고공유합니다。

참조예제

로봇공학,자율주행,보정,스케줄링및기타응용사례를위한제어기와사결정알고리즘을설계수있습니다。

조정,보정및스케줄링

조정,보정및스케줄링응용사례를를위한강화학습정책을할수수

상수관망시스템의리소스할당문제。

강화학습비디오시리즈

이비디오시리즈를통해강화학습에대해자세히알아볼수있습니다。