AWS DeepRacer 训练算法

近端策略优化 (PPO) 与软行为体批评者 (SAC)

算法 SAC 和 PPO 都同时学习策略和价值函数,但它们的策略在三个显著方面有所不同:

ProSAC
可在离散和连续的动作空间中工作在连续的动作空间中工作
不偏不倚不在政策范围内
使用熵正则化将熵添加到最大化目标中

稳定与数据密集型对比

在探索环境时通过PPO和SAC算法的策略获得的信息的使用方式不同。PPO使用政策学习,这意味着它从当前探索环境的政策的观察中学习其价值功能。SAC使用非政策学习,这意味着它可以利用先前政策对环境的探索得出的观察。非政策学习和非政策学习之间的权衡通常是稳定性与数据效率。非政策算法往往更稳定,但需要大量数据,而非政策算法往往恰恰相反。

勘探与开发

勘探与开发是 RL 的关键挑战。算法应该利用以前经验中的已知信息来获得更高的累积奖励,但它也需要探索以获得新的经验,这些经验可用于在future 寻找最佳策略。当策略经过多次迭代训练并更多地了解环境时,为给定的观测结果选择操作就变得更加确定了。但是,如果该政策的探索性不够,即使尚未达到最佳状态,它也可能会坚持使用已经学到的信息。PPO 算法鼓励通过使用熵正则化进行探索,从而防止代理向局部最优值收敛。SAC 算法通过在其最大化目标中添加熵,在探索和开发之间取得了非凡的平衡。


=

在这种情况下,“熵” 是衡量政策不确定性的指标,因此可以将其解释为衡量政策在为特定州选择行动方面的信心程度。低熵的政策对选择行动非常有信心,而熵高的政策则不确定该选择哪种行动。

SAC 算法的熵最大化策略与 PPO 算法使用熵作为正则化器的优势类似。与 PPO 一样,它鼓励更广泛的探索,并通过激励代理选择具有更高熵的动作来避免趋同于糟糕的局部最优值。与熵调节不同,熵最大化具有独特的优势。它倾向于放弃选择不良行为的政策,这是SAC算法往往比PPO更高的数据效率的另一个原因。

使用 SAC alpha 超参数调整 SAC 中的熵量。最大 SAC α熵值 (1.0) 有利于探索。最小值 (0.0) 恢复了标准 RL 目标并抵消了激励探索的熵加成。开始实验的良好 SAC alpha 值是 0.5。在对模型进行迭代时进行相应的调整。

尝试PPO和SAC算法,实验它们的超参数,然后在不同的动作空间中进行探索。

标签: none