为强化学习代理表示(批评者和参与者)设置的选项
rlValueRepresentation |
强化学习agent的价值函数批评表示 |
rlQValueRepresentation |
强化学习agent的Q值函数批评表示 |
决定论呈现 |
强化学习主体的确定性行为体表示 |
rlStochasticActorRepresentation |
强化学习智能体的随机角色表示 |