根据环境观察,从行为者或行动者的表现中获得行动
返回从给定环境观察的强化学习代理的策略中得到的动作。agentAction
= getAction (代理
,奥林匹克广播服务公司
)
返回从策略表示派生的操作actorAction
= getAction (actorRep
,奥林匹克广播服务公司
)actorRep
鉴于环境观测奥林匹克广播服务公司
.
[
当参与者使用递归神经网络作为函数近似器时,返回参与者表示的更新状态。actorAction
,nextState
) = getAction (actorRep
,奥林匹克广播服务公司
)