主体内容

自定义环境评分信号

引导学习过程增强学习使用环境生成的标量奖励信号信号测量代理实现任务目标的性能换句话说,对特定观察(状态),奖赏衡量立即采取特定行动的有效性培训期间代理更新策略 基础是不同状态组合所得回报介绍不同类型的代理和训练时使用奖赏信号见强化学习代理.

总的来说,你提供正面奖赏鼓励某些代理行为和负奖赏(惩罚)劝阻其他行为设计周全的奖状信号引导代理实现对累积长期奖状期望最大化何谓设计良好的奖赏取决于您的应用和代理目标

举例说,当代理必须执行任务尽可能长时,常用策略是为代理成功执行任务的每一时间步提供微值正报报这种方法鼓励较长培训事件,同时严重阻抗行为导致代理失败事件实例使用此方法见trainDQN代理平衡板系统.

如果您的奖励函数包含多重信号,例如位置、速度和控制努力,则你必须考虑信号相对大小并相应调整对奖励信号的贡献比例

可指定连续或离散奖状信号任意一种情况中,你必须提供奖赏信号,当动作和观察信号改变时提供丰富信息

控件系统应用中已有成本函数和约束,您也可以使用从这些规范生成奖赏函数

连续奖励

持续奖赏函数随环境观察和动作变化而持续变化总体说来,持续奖赏信号提高训练期间的汇合性并发网络结构简单化

连续奖举一例四阶调算法成本函数,累积长期奖分可表现为:

J大全 = - 高山市 s级 τ T级 Q类 τ s级 τ + j大全 = τ s级 j大全 T级 Q类 j大全 s级 j大全 + a/ j大全 T级 R j大全 a/ j大全 + 2 s级 j大全 T级 N级 j大全 a/ j大全 )

Q类τ,Q类,RN级权值矩阵Q类τ终端权值矩阵,仅在插件尾应用临Τs级即观察向量a/即动作向量τ终端迭代插件快速报答函数

R = s级 T级 Q类 s级 + a/ T级 R a/ + 2 s级 T级 N级 a/

QR奖赏结构鼓励代理驱动s级至零最小动作努力QR奖赏结构是优优优选择调点问题或固定点问题,如时钟摇动或调控双重集成器位置训练实例使用QR奖项见trainDQN代理向上平衡分局DDPG代理比较LQR控制器.

平滑连续奖赏,如QR调试器,对微调参数有利,并可以提供类似于最优控制器(LQR/MPC)的政策

离散奖状

离散奖赏函数随环境观察或动作变化不时变化此类奖赏信号可减慢聚合速度并需要更加复杂网络结构离散奖状通常应用事件处理环境中发生-例如代理者如果超出目标值或违反性能约束处罚则得到正报或罚

离散回报可减慢归并性,也可引导代理向环境状态空间更好的奖励区域发展区域奖项,如代理接近目标点时固定奖项,可模仿最终状态约束区域惩罚可鼓励代理避免状态空间的某些区域

混合奖励

在许多情况下,提供混合奖状信号并用连续和离散奖状组件是有益之事离散奖状信号可用于驱动系统远离不良状态,持续奖状信号通过向目标州提供平滑奖状提高聚合度比方说培训DDPG代理控制滑动机器人,奖赏函数有三大构件R一号,R2R3.

R 一号 = 10 高山市 高山市 X级 t级 2 + y市 t级 2 + θ t级 2 ) < 0.5 ) R 2 = - 百元 高山市 | X级 t级 | 20码 | | | y市 t级 | 20码 ) R 3 = - 高山市 0.2 高山市 R t级 - 一号 + L级 t级 - 一号 ) 2 + 0.3 高山市 R t级 - 一号 - L级 t级 - 一号 ) 2 + 0.03 X级 t级 2 + 0.03 y市 t级 2 + 0.02 θ t级 2 ) R = R 一号 + R 2 + R 3

内地 :

  • R一号基于区域的持续奖赏 只应用近机器人目标位置

  • R2离散信号当机器人移动距离目标位置远时提供重罚

  • R3持续QR处罚所有机器人状态

从控件规范中报答生成

已经存在工作控制系统的应用可能已有成本函数或约束等规范可用遇有这种情况,您可使用generateRewardFunction自动生成奖励函数,编译为MATLAB®中,可用作奖赏设计起始点函数允许生成奖赏函数

  • 成本约束规范定义mpc(模型预测控制工具箱)slmpc(模型预测控制工具箱)控制器对象特征需要模型预测控制工具箱软件

  • 性能约束定义万博1manbetx®设计优化TM模型验证块

在上述两种情况中,当约束被违反时,使用诸如惩罚功能计算负奖项外部惩罚(默认),hyperbolicPenalty屏障惩罚函数 。

从生成奖励函数开始,你可调值成本和罚款权值,使用不同的惩罚功能,然后使用环境内生成的奖励函数培训代理

观察信号

创建自定义环境时,选择动作观察取决于应用举例说,控制系统应用错误信号积分(有时衍生物)往往是有用的观察同时,对参考跟踪应用而言,用时参照信号观察有帮助

定义观察信号时,最佳做法是将所有环境状态都包含到观察向量中

不这样做可能导致环境状态产生相同观察的情况代理策略(假设观察静态函数)返回相同动作此类策略通常不成功,因为成功策略通常需要回击不同环境状态

举例说,图象观察摇摆钟有位置信息,但本身没有足够的信息来确定钟速静态策略无法感知速度 无法稳定句子但如果速度可以测量或估计,加入观察矢量中将提供一个静态策略,并有足够的信息稳定句子

并非所有状态都可提供观察信号(例如,不现实测量信号)时,可能的变通方法就是使用估计器(环境的一部分)估计非测量状态值,并提供给代理商做观察或可使用重复式网络,如LSTM策略这样做产生政策有状态,并因此可能使用状态作为环境状态内部表示即便信息不足无法从当前观察重建正确环境状态,这种策略可归回不同的动作(基于内部状态的不同值)。

并见

函数类

对象

相关实例

多点讲解