强化学习的问题是我的问题?尝试3代理似乎没有人学习任何东西。

1视图(30天)
你好我试图解决强化学习算法的优化问题从几个月,但我´t可以代理学习正确的事情,现在我出现了这个问题。
存在的问题:
观察向量40[1],这是一个记录的信号在频域需要操纵的actionvector 40[1],这是一个阻尼矢量,所以结果statevector 40 [1] = targetFunction,对于我来说一个矩形()函数。
演员只有一个步伐前收集奖励和观察重置。如果“Observation-Action =状态! = tarFrunction”比“观察= InitialObservation”和代理需要寻找另一个actionvector可能导致InitialObservation看起来更像一个矩形()函数。代理得到奖励而得到更大更平等的状态向量的所有40分tarFunction的40分。
第一个版本的程序复位后观察并´t改变/获得新的观察。在真实的应用程序中由于噪声,观察不同可能会改变大大如果设备连接到系统和创建信号变化。
环境:LaserContinuousEnv17.m
环境有一个连续的观察(“Upperlimit -20”和“-70 LowerLimit”)和Actionspace (“Upperlimit 35”和“LowerLimit 0”)。第一/初步观察后保存为财产”。iSig”,每一个州与阶跃函数计算公式:
观察= this.iSig-Action;
this.State =观察;
环境档案附呈。奖励函数是基于RMSE和看起来是这样的:- >。tarFCT是targetFunction“矩形()”
RMSE =√总和(this.State-this.tarFCT)。^ 2) /尺寸(this.State, 1);
perc = abs ((this.State-this.tarFCT)。/ this.tarFCT);
奖励= (((1-perc) * 10)总和)+(总和(perc * (1)) * RMSE);
奖励变大targetfunction状态越接近。如果所有40分都等于targetFunction,奖励有它的最大价值。rewad曾积极的奖励和消极的惩罚。代理是“最大化第一部分和第二部分为了最大化最小化奖励。的情节rewardfunction附呈。
代理:
我试着总共DDPG、PG和TD3代理的问题,但没有一个代理甚至显示出学习即使200 k集等等。我也试图改变学习像个利率和不同的解决算法,rmsprop和亚当和一些不同的重量和偏见的初始化,但没有努力。我代理配置附加的文件“RFL_Agent_Training_17.m”。
NeuralNetworks:
我曾经很简单神经entworks代理一开始只有一个或两个fullyconnected层和relu层每层和改变了神经元之间的最小值40到4000个神经元,但网络似乎不能学到任何矩形。这只是尝试rndm等操作。
我的问题是,这个项目有什么根本性的问题,代理没有机会学习什么吗?还是也许只是网络用于批评我的错误类型1和2和演员吗?我可能同一个网络用于所有这些部分演员和批评家之间的唯一区别在于输出层。评论家有1层skalar多特蒙特输出。它也许来共同构建更复杂的网络这个问题?在我的第一个想法这个问题没有´t是这个复杂。
我想尝试下这个步骤:
- - - - - - 不同的 ( 卷积 LSTM)
- - - - - - 改变 权重 和偏见 初始化
- - - - - - 改变 归一化 hiddenlayer
- - - - - - 尝试不同的 Learnrates 演员 评论家 1、2点( 已经 正在进行的 工作 )
- - - - - - 改变 Statespace 探索 算法 个,亚当,…)
和坚持 参数 。( 已经 正在进行的 工作 )
我真的想知道为什么´这不是工作。是Actionspace太大,我需要更多的约束问题?如果是RF-Toolbox我怎么能这么做?
致以最亲切的问候

答案(0)

类别

找到更多的在代理帮助中心文件交换

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!