加固学习工具箱
强化学习を用いた方策の设计および学习
强化学习工具箱™には,DQNやPPO,SAC,DDPGなどの强化学习アルゴリズムを使用して方策を学习させるためのアプリや关数,Simulink的万博1manbetx®ブロックが用意されています。これらの方策を使用して,リソース割り当てやロボティクス,自律システムなどの复雑な用途向けにコントローラーと意思决定アルゴリズムを実装できます。
このツールボックスでは,ディープニューラルネットワークやルックアップテーブルを使用して,方策や価値关数を表现し,MATLAB®や的万博1manbetxSimulinkでモデル化された环境との交互作用を通じてそれらを学习させることができます。ツールボックスに含まれるシングルエージェントまたはマルチエージェントの强化学习アルゴリズムを评価したり,独自に开発を行ったりできます。また,ハイパーパラメーター设定の実験や,学习の进行状况の监视が可能であるほか,学习済みエージェントをアプリから対话的にまたはプログラム上でシミュレーションできます。学习の性能を向上させるには,シミュレーションを复数のCPU,GPU,コンピュータークラスター,およびクラウドで并列実行します(并行计算工具箱™およびMATLAB并行服务器™を使用)。
既存の方策は,ONNX™モデル形式を使用して,TensorFlow™KerasやPyTorchなどのディープラーニングフレームワークからインポートできます(深度学习工具箱™を使用)。最适化されたC,C ++,およびCUDA®コードを生成し,学习済みの方策をマイクロコントローラーやGPUに展开できます。このツールボックスには,初めての方にも使いやすい参照例が付属しています。
详细を见る:
强化学习アルゴリズム
深Q-网络(DQN),深层决定论的方策勾配法(DDPG),近傍方策最适化(PPO)などの组み込みアルゴリズムを使用して,エージェントを作成します。テンプレートを使用して,方策の学习のためのカスタムエージェントを开発します。
强化学习デザイナーアプリ
强化学习エージェントの设计,学习,シミュレーションを対话的に行います。后で使用したり展开できるように,学习済みのエージェントをMATLABにエクスポートします。
ディープニューラルネットワークによる方策と価値关数の表现
大きな状态行动空间を持つ复雑なシステムでは,ディープニューラルネットワークの方策をプログラムで定义します。この场合,深度学习工具箱の层を使用するか,ディープネットワークデザイナーを使用して対话的に定义します。または,このツールボックスで提案される既定のネットワークアーキテクチャを使用します。模仿学习を使用して方策を初期化し,学习を高速化します。他のディープラーニングフレームワークとの相互运用のためにONNXモデルのインポートおよびエクスポートを行います。
万博1manbetxSimulink的によるシングルエージェントおよびマルチエージェントの强化学习
万博1manbetxSimulink中でRL代理ブロックを使用して,强化学习エージェントの作成と学习を行います.SimulinkでRL代理ブロックの复数のインスタンスを使用して,复数のエージェントの学习を同时に行います(マルチエージェントの强化学习)。
万博1manbetxSimulink的および的Simscape环境
万博1manbetxSimulink的および的Simscape™を使用して,环境のモデルを作成します。モデル内で観测信号,行动信号,报酬信号を指定します。
MATLAB环境
MATLABの关数やクラスを使用して,环境をモデル化します.MATLABファイル内で,観测変数,行动変数,报酬変数を指定します。
分散コンピューティングおよびマルチコアによる高速化
学习を高速化するために,并行计算工具箱やMATLAB并行服务器を使用して,マルチコアコンピューター,クラウドリソース,または计算クラスター上で并列シミュレーションを実行します。
コード生成
学习済みの方策を表现するMATLABコードから最适化されたCUDAコードを生成するにはGPU编码器™を使用します。方策を展开するためのC / C ++コードの生成にはMatlab Coder™を使用します。
MATLAB编译のサポート
Matlab Compiler™やMATLAB编译器SDK™を使用して,学习済みの方策をスタンドアロンのアプリケーション,C / C ++共有ライブラリ,微软®.NETアセンブリ,爪哇®クラス,巨蟒®パッケージとして展开します。
入门
単纯な振子の倒立,グリッドワールドのナビゲート,カートポールシステムのバランス制御,一般的なマルコフ决定过程の求解などの问题に対する强化学习方策の开発方法をご覧ください。
自动运転
车间距离制御装置,车线逸脱防止支援,自动驻车などの自动运転用途のための强化学习方策を设计します。
ロボティクス
ロボティクスの用途向けに强化学习方策を设计します。
调整,キャリブレーション,およびスケジューリング
调整,キャリブレーション,およびスケジューリングの用途向けに强化学习方策を设计します。
制品リソース:
强化学习ビデオシリーズ
このビデオシリーズを见て,强化学习について学习しましょう。