为什么不能输出最优解,验证代理商吗?

12个视图(30天)
库恩程
库恩程 2023年6月7日19:50
编辑: 库恩程2023年6月14日19:32
大家好,
主题:强化学习,DQN代理。
我已经训练一个代理数据集(共28个训练数据),那么所有这些数据进行验证。问题是我不能得到最优结果验证。他们中的一些人是好的但不是每个结果很好。
  1. env:我custermized环境。
  2. 我用这个函数创建批评:评论家= rlVectorQValueFunction (nn、obsInfo actInfo);
  3. 与创建一个批评家dqn代理:代理= rlDQNAgent(批评);
我有尝试新代理只有1的数据。培训可以聚集。这个数据也验证了正确答案。但我训练有素的代理使用相同的hyperparameter 28所有数据。....正确性不是garanteed波折我不知道是什么原因。因为数据集太小?或者我给错hyperparameter ?
Hyperparameter代理:
agent.AgentOptions.EpsilonGreedyExploration。EpsilonDecay = 0.9;
agent.AgentOptions.EpsilonGreedyExploration。ε= 0.9;
agent.AgentOptions.EpsilonGreedyExploration。EpsilonMin = 0.001;
agent.AgentOptions。DiscountFactor = 0.99;
agent.AgentOptions。MiniBatchSize = 128;
agent.AgentOptions.CriticOptimizerOptions。LearnRate = 0.0008;
agent.AgentOptions.CriticOptimizerOptions。GradientThreshold = 1;
agent.AgentOptions.SaveExperienceBufferWithAgent = true;
谢谢你!
库恩
2的评论
库恩程
库恩程 2023年6月14日13:39
编辑:库恩程 2023年6月14日19:32
你好,
我的意思是28日培训,28个训练样本1时代。
例如我训练数据学习曲线1:
聚集在正确的位置,没有问题。我改变任何hyperparameter,开始第二次。学习曲线2:
聚集到理想位置。
它发生在训练数据集的所有28个培训他们中的一些正常聚合。人聚集到理想位置。
我的问题是我不知道如何处理它。我应该做更多的培训与训练数据集(2 3或更多的时代),直到所有这些可以聚集到正确的位置?否则我将培训和新的训练数据集代理吗?
注:粘贴关于hyperparameters附加信息。我不确定如果有一些问题
agent.AgentOptions.EpsilonGreedyExploration。EpsilonDecay = 0.0001;
agent.AgentOptions.EpsilonGreedyExploration。ε= 0.9;
agent.AgentOptions.EpsilonGreedyExploration。EpsilonMin = 0.0001;
agent.AgentOptions。DiscountFactor = 0.99;
agent.AgentOptions。MiniBatchSize = 128;
agent.AgentOptions.CriticOptimizerOptions。LearnRate = 0.0001;% 0.0008
agent.AgentOptions.CriticOptimizerOptions。L2RegularizationFactor = 2的军医;
agent.AgentOptions.CriticOptimizerOptions。GradientThreshold = 1;
agent.AgentOptions.SaveExperienceBufferWithAgent = true;
%的神经网络
Layer_WB_5_2 = fullyConnectedLayer (128“名字”,“WB_5_2”,“WeightLearnRateFactor”,1“BiasLearnRateFactor”1);
nn = [
featureInputLayer (obsInfo.Dimension (1))
Layer_WB_5_2
reluLayer
fullyConnectedLayer(长度(actInfo.Elements))
];
rng (0)
nn = dlnetwork (nn);
总结(nn)
评论家= rlVectorQValueFunction (nn、obsInfo actInfo);
谢谢
库恩

登录置评。

答案(0)

类别

找到更多的在培训和验证帮助中心文件交换

社区寻宝

找到宝藏在MATLAB中央,发现社区如何帮助你!

开始狩猎!