得到估计值函数表示
返回状态值函数表示的估计值函数价值
= getValue (valueRep
,奥林匹克广播服务公司
)valueRep
鉴于环境观测奥林匹克广播服务公司
.
返回多个q值函数表示的估计状态动作值函数价值
= getValue (qValueRep
,奥林匹克广播服务公司
)qValueRep
鉴于环境观测奥林匹克广播服务公司
.在这种情况下,qValueRep
有尽可能多的输出有可能离散的行动,和getValue
返回每个操作的状态值函数。
返回单输出q值函数表示的估计状态动作值函数价值
= getValue (qValueRep
,奥林匹克广播服务公司
,行为
)qValueRep
鉴于环境观测奥林匹克广播服务公司
和行动行为
.在这种情况下,getValue
返回给定观察和操作输入的状态值函数。