强化学习工具箱

強化学習を用いた方策の設計および学習

価格を表示する

强化学习工具箱™には,DQNやPPO,囊,DDPGなどの強化学習アルゴリズムを使用して方策を学習させるためのアプリや関数,仿真软件万博1manbetx^®ブロックが用意されています。これらの方策を使用して,リソース割り当てやロボティクス,自律システムなどの複雑な用途向けにコントローラーと意思決定アルゴリズムを実装できます。

このツールボックスでは,ディープニューラルネットワークやルックアップテーブルを使用して,方策や価値関数を表現し,MATLAB^®や仿万博1manbetx真软件でモデル化された環境との交互作用を通じてそれらを学習させることができます。ツールボックスに含まれるシングルエージェントまたはマルチエージェントの強化学習アルゴリズムを評価したり,独自に開発を行ったりできます。また,ハイパーパラメーター設定の実験や,学習の進行状況の監視が可能であるほか,学習済みエージェントをアプリから対話的にまたはプログラム上でシミュレーションできます。学習の性能を向上させるには,シミュレーションを複数のCPU、GPU,コンピュータークラスター,およびクラウドで並列実行します(并行计算工具箱™およびMATLAB并行服务器™を使用)。

既存の方策は,ONNX™モデル形式を使用して,TensorFlow™KerasやPyTorchなどのディープラーニングフレームワークからインポートできます(深度学习工具箱™を使用)。最適化されたC, c++,およびCUDA^®コードを生成し,学習済みの方策をマイクロコントローラーやGPUに展開できます。このツールボックスには,初めての方にも使いやすい参照例が付属しています。

詳細を見る:

强化学习工具箱とは

強化学習エージェント

MATLABや仿真万博1manbetx软件で方策を学習させるための強化学習エージェントの作成および構成を行います。組み込みの強化学習アルゴリズムを使用するか,カスタムの強化学習アルゴリズムを開発します。

強化学習アルゴリズム

深Q-Network (DQN),深層決定論的方策勾配法(DDPG),近傍方策最適化(PPO)などの組み込みアルゴリズムを使用して,エージェントを作成します。テンプレートを使用して,方策の学習のためのカスタムエージェントを開発します。

強化学習エージェントの学習

組み込みエージェント

カスタムエージェントの作成

2足歩行ロボットの学習による歩行制御

强化学习工具箱で使用できる学習アルゴリズム。

強化学習デザイナーアプリ

強化学習エージェントの設計,学習,シミュレーションを対話的に行います。後で使用したり展開できるように,学習済みのエージェントをMATLABにエクスポートします。

強化学習デザイナー

強化学習デザイナーアプリを使用したエージェントの設計と学習

強化学習エージェントの対話的な作成と学習

ディープニューラルネットワークによる方策と価値関数の表現

大きな状態行動空間を持つ複雑なシステムでは,ディープニューラルネットワークの方策をプログラムで定義します。この場合,深度学习工具箱の層を使用するか,ディープネットワークデザイナーを使用して対話的に定義します。または,このツールボックスで提案される既定のネットワークアーキテクチャを使用します。模倣学習を使用して方策を初期化し,学習を高速化します。他のディープラーニングフレームワークとの相互運用のためにONNXモデルのインポートおよびエクスポートを行います。

ディープニューラルネットワーク表現の作成とインポート

ディープネットワークデザイナーによるエージェントの作成

模倣学習によるDDPG演员ネットワークの初期化

強化学習エージェントの初期化のオプション