加固学习工具箱

强化学习を用いた方策の设计および学习

価格を表示する

强化学习工具箱™には，DQNやPPO，SAC，DDPGなどの强化学习アルゴリズムを使用して方策を学习させるためのアプリや关数，Simulink的万博1manbetx^®ブロックが用意されています。これらの方策を使用して，リソース割り当てやロボティクス，自律システムなどの复雑な用途向けにコントローラーと意思决定アルゴリズムを実装できます。

このツールボックスでは，ディープニューラルネットワークやルックアップテーブルを使用して，方策や価値关数を表现し，MATLAB^®や的万博1manbetxSimulinkでモデル化された环境との交互作用を通じてそれらを学习させることができます。ツールボックスに含まれるシングルエージェントまたはマルチエージェントの强化学习アルゴリズムを评価したり，独自に开発を行ったりできます。また，ハイパーパラメーター设定の実験や，学习の进行状况の监视が可能であるほか，学习済みエージェントをアプリから対话的にまたはプログラム上でシミュレーションできます。学习の性能を向上させるには，シミュレーションを复数のCPU，GPU，コンピュータークラスター，およびクラウドで并列実行します（并行计算工具箱™およびMATLAB并行服务器™を使用）。

既存の方策は，ONNX™モデル形式を使用して，TensorFlow™KerasやPyTorchなどのディープラーニングフレームワークからインポートできます（深度学习工具箱™を使用）。最适化されたC，C ++，およびCUDA^®コードを生成し，学习済みの方策をマイクロコントローラーやGPUに展开できます。このツールボックスには，初めての方にも使いやすい参照例が付属しています。

详细を见る：

强化学习工具箱とは

强化学习エージェント

MATLABやSi万博1manbetxmulink中で方策を学习させるための强化学习エージェントの作成および构成を行います。组み込みの强化学习アルゴリズムを使用するか，カスタムの强化学习アルゴリズムを开発します。

强化学习アルゴリズム

深Q-网络（DQN），深层决定论的方策勾配法（DDPG），近傍方策最适化（PPO）などの组み込みアルゴリズムを使用して，エージェントを作成します。テンプレートを使用して，方策の学习のためのカスタムエージェントを开発します。

强化学习エージェントの学习

组み込みエージェント

カスタムエージェントの作成

2足歩行ロボットの学习による歩行制御

强化学习工具箱で使用できる学习アルゴリズム。

强化学习デザイナーアプリ

强化学习エージェントの设计，学习，シミュレーションを対话的に行います。后で使用したり展开できるように，学习済みのエージェントをMATLABにエクスポートします。

强化学习デザイナー

强化学习デザイナーアプリを使用したエージェントの设计と学习

强化学习エージェントの対话的な作成と学习

ディープニューラルネットワークによる方策と価値关数の表现

大きな状态行动空间を持つ复雑なシステムでは，ディープニューラルネットワークの方策をプログラムで定义します。この场合，深度学习工具箱の层を使用するか，ディープネットワークデザイナーを使用して対话的に定义します。または，このツールボックスで提案される既定のネットワークアーキテクチャを使用します。模仿学习を使用して方策を初期化し，学习を高速化します。他のディープラーニングフレームワークとの相互运用のためにONNXモデルのインポートおよびエクスポートを行います。

ディープニューラルネットワーク表现の作成とインポート

ディープネットワークデザイナーによるエージェントの作成

模仿学习によるDDPG演员ネットワークの初期化

强化学习エージェントの初期化のオプション