强化学习- MATLAB和Simulink万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

강화학습

심층강화학습은머신러닝의한분야,로로봇및자율시스템과같은복잡한시스템의컨트롤러와의사결정알고리즘을구현할수있습니다。심층강화학습을사용하여,시뮬레이션모델에서동적으로생성된데이터로심층신경망을훈련시켜서복잡한동작을학습하는심층신경망을구현할수있습니다。이를위해레이블지정이되었거나되지않은,미리정의된훈련데이터셋이필요하지않습니다。제어하려는상호작용중인환경을나타내는시뮬레이션모델만있으면됩니다。

MATLAB^®과仿万博1manbetx真软件^®는강화학습기반컨트롤러를설계하고배포하는전체워크플로를지원합니다。다음을수행할수있습니다。

간단한제어시스템,자율시스템및로봇예제를사용하여강화학습시작하기
약간의코드변경만으로널리사용되는여러강화학습알고리즘을빠르게전환하고,평가하고,비교하기
심층신경망을사용하여이미지,비디오및센서데이터를바탕으로복잡한강화학습정책정의하기
로컬코어또는클라우드를사용하여여러시뮬레이션을병렬로실행하여정책을더빨리훈련시키기
임베디드기기에강화학습컨트롤러배포하기

강화학습에이전트

강화학습에이전트는입력상태에서출력동작으로매핑을수행하는정책과이정책의업데이트를담당하는알고리즘으로구성됩니다。널리사용되는알고리즘예로Q-Network深处,演员评论家,深决定性策略梯度를들수있습니다。알고리즘은환경에의해제공되는장기보상신호가극대화되도록정책을업데이트합니다。

정책은심층신경망,다항식및룩업테이블로표현할수있습니다。그런다음내장사용자지정에이전트를MATLAB객체또는仿真软件블록으로구万博1manbetx현할수있습니다。

자세히알아보기

MATLAB에서강화학습에이전트정의하기——문서
MATLAB에서심층신경망을사용하여정책표현하기——문서
万博1manbetx仿真软件에서물탱크시스템을제어하도록DDPG에이전트훈련시키기——예제
영상데이터를통한도립진자용강화학습(5:04)——비디오
대화형방식으로강화학습에이전트생성및훈련하기(38)——비디오

MATLAB및仿真万博1manbetx软件에서의환경모델링

에이전트는주변환경과상호작용하므로강화학습알고리즘을사용하여훈련시키는것은동적인과정입니다。로봇및자율시스템과같은활용분야의경우실세계에서실제하드웨어로훈련을수행하려면비용이많이들고위험할수있습니다。따라서강화학습에서는시뮬레이션을통해데이터를생성하는환경의가상모델이선호됩니다。

MATLAB과仿万博1manbetx真软件에서시스템역학,에이전트의동작에따라시스템이영향을받는방식,그리고수행된동작의적합도를평가하는보상을설명하는환경모델을빌드할수있습니다。이러한모델은연속또는이산일수있으며,여러정확도수준으로시스템을표현할수있습니다。시뮬레이션을병렬실행하여훈련속도를높일수도있습니다。경우에따라시스템의기존MATLAB및仿真软件모델万博1manbetx을약간만수정하여강화학습용으로재사용할수있습니다。