为什么不能输出最优解,验证代理商吗?

12个视图(30天)

显示旧的评论

库恩程 2023年6月7日19:50

0
链接

这个问题直接联系

//www.tianjin-qmedu.com/matlabcentral/answers/1979864-why-can-not-output-optimal-solution-when-validate-agent

编辑: 库恩程2023年6月14日19:32

大家好,

主题:强化学习,DQN代理。

我已经训练一个代理数据集(共28个训练数据),那么所有这些数据进行验证。问题是我不能得到最优结果验证。他们中的一些人是好的但不是每个结果很好。

env:我custermized环境。
我用这个函数创建批评:评论家= rlVectorQValueFunction (nn、obsInfo actInfo);
与创建一个批评家dqn代理:代理= rlDQNAgent(批评);

我有尝试新代理只有1的数据。培训可以聚集。这个数据也验证了正确答案。但我训练有素的代理使用相同的hyperparameter 28所有数据。....正确性不是garanteed波折我不知道是什么原因。因为数据集太小?或者我给错hyperparameter ?

Hyperparameter代理:

agent.AgentOptions.EpsilonGreedyExploration。EpsilonDecay = 0.9;

agent.AgentOptions.EpsilonGreedyExploration。ε= 0.9;

agent.AgentOptions.EpsilonGreedyExploration。EpsilonMin = 0.001;

agent.AgentOptions。DiscountFactor = 0.99;

agent.AgentOptions。MiniBatchSize = 128;

agent.AgentOptions.CriticOptimizerOptions。LearnRate = 0.0008;

agent.AgentOptions.CriticOptimizerOptions。GradientThreshold = 1;

agent.AgentOptions.SaveExperienceBufferWithAgent = true;

谢谢你！

库恩

2的评论
显示1年长的评论藏1年长的评论

库恩程 2023年6月14日13:39

编辑:库恩程 2023年6月14日19:32

你好,

我的意思是28日培训,28个训练样本1时代。

例如我训练数据学习曲线1:

聚集在正确的位置,没有问题。我改变任何hyperparameter,开始第二次。学习曲线2:

聚集到理想位置。

它发生在训练数据集的所有28个培训他们中的一些正常聚合。人聚集到理想位置。

我的问题是我不知道如何处理它。我应该做更多的培训与训练数据集(2 3或更多的时代),直到所有这些可以聚集到正确的位置?否则我将培训和新的训练数据集代理吗?

注:粘贴关于hyperparameters附加信息。我不确定如果有一些问题

                                agent.AgentOptions.EpsilonGreedyExploration。EpsilonDecay = 0.0001;
                               
                                agent.AgentOptions.EpsilonGreedyExploration。ε= 0.9;
                               
                                agent.AgentOptions.EpsilonGreedyExploration。EpsilonMin = 0.0001;
                               
                                agent.AgentOptions。DiscountFactor = 0.99;
                               
                                agent.AgentOptions。MiniBatchSize = 128;
                               
                                agent.AgentOptions.CriticOptimizerOptions。LearnRate = 0.0001;% 0.0008
                               
                                agent.AgentOptions.CriticOptimizerOptions。L2RegularizationFactor = 2的军医;
                               
                                agent.AgentOptions.CriticOptimizerOptions。GradientThreshold = 1;
                               
                                agent.AgentOptions.SaveExperienceBufferWithAgent = true;
                               
                                %的神经网络
                               
                                Layer_WB_5_2 = fullyConnectedLayer (128“名字”,“WB_5_2”,“WeightLearnRateFactor”,1“BiasLearnRateFactor”1);
                               
                                nn = [
                               
                                featureInputLayer (obsInfo.Dimension (1))
                               
                                Layer_WB_5_2
                               
                                reluLayer
                               
                                fullyConnectedLayer(长度(actInfo.Elements))
                               
                                ];
                               
                                rng (0)
                               
                                nn = dlnetwork (nn);
                               
                                总结(nn)
                               
                                评论家= rlVectorQValueFunction (nn、obsInfo actInfo);

谢谢

库恩

登录置评。

在回答这个问题。

答案(0)

在回答这个问题。

类别

控制系统强化学习工具箱培训和验证

找到更多的在培训和验证在帮助中心和文件交换

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!

为什么不能输出最优解,验证代理商吗?

2的评论
显示1年长的评论藏1年长的评论

答案(0)

另请参阅

类别

标签

社区寻宝

为什么不能输出最优解,验证代理商吗?

2的评论 显示1年长的评论藏1年长的评论

答案(0)

另请参阅

类别

标签

社区寻宝

2的评论
显示1年长的评论藏1年长的评论