长期以来,从少量数据中高效学习一直是基于模型的强化学习的重点,无论是在与环境交互时的在线案例,还是在从固定数据集学习时的离线案例。然而,到目前为止,还没有一个统一的算法在这两种设置中显示出最先进的结果。在这项工作中,我们描述了Reanalyse算法,该算法使用基于模型的策略和价值改进算子来计算现有数据点上的新的改进训练目标,从而允许对变化几个数量级的数据预算进行有效学习。我们进一步表明,再分析也可以用于完全从演示中学习,而无需任何环境交互,就像离线强化学习(离线RL)的情况一样。结合Reanalyse和MuZero算法,我们引入了MuZero Unplugged,这是一种用于任何数据预算的单一统一算法,包括离线RL。与之前的工作相比,我们的算法不需要对离线策略或离线RL设置进行任何特殊调整。MuZero Unplugged在RL Unplugge离线RL基准测试以及雅达利在线RL基准中以标准的2亿帧设置设置了最新的最新结果。
离线强化学习有望从机器人、医疗保健或教育等一系列重要问题中的许多现有真实世界数据集学习有用的策略(Levine等人,2020)。有效地从离线数据中学习对于这样的任务至关重要,在这些任务中,与环境的交互成本很高或存在安全问题,但通常会有大量的记录数据和其他离线数据可用。已经描述了用于在线案例的多种有效强化学习(RL)算法,在视频游戏(Mnih等人,2015)、机器人控制(Akkaya等人,2019)和许多其他问题中取得了令人印象深刻的结果。然而,由于非政策问题,将这些在线RL算法应用于离线数据通常仍然具有挑战性,迄今为止,离线RL的最佳结果是通过专门的离线算法获得的(Kumar等人,2020;Wang等人,2020年;Agarwal等人,2020)。与此同时,基于模型的强化学习(RL)长期以来一直专注于从少量数据中高效学习,甚至可以在环境模型中完全学习(Hafner等人,2018)-这是一种非常适合离线RL的方法。到目前为止,这些开发相对独立,没有统一的算法可以在在线和离线环境中实现最先进的结果。在本文中,我们描述了Reanalyse算法,这是一种简单而有效的技术,用于在任何数据预算(包括完全离线情况)下改进策略和价值。在MuZero的背景下简要介绍了Reanalyse的初步版本(Schrittwieser等人,2020),但仅限于离散动作情况下的数据效率改进。在这里,我们更深入地研究了算法,并进一步提高了它的能力——最终达到了重新分析大部分或所有数据的程度。从Reanalyse的可能用途开始,我们展示了如何将其用于数据高效学习和离线RL,从而实现MuZero Unplugged。我们通过Atari和DM Control的RL Unplugged基准测试结果证明了其在线案例和离线案例的有效性。