为强化学习代理表示设置的选项(批评者和参与者)
rlValueRepresentation |
强化学习代理的价值函数批评表示 |
rlQValueRepresentation |
强化学习智能体的q值函数批评表示 |
rlDeterministicActorRepresentation |
强化学习代理的确定性行为者表示 |
rlStochasticActorRepresentation |
用于强化学习代理的随机角色表示 |