目前国内关于强化学习方面的书籍相对来说还是比较少,能涵盖最新研究进展的书籍就更少了。Richard S. Sutton的Introduction围绕经典强化学习理论介绍时序差分学习和函数近似理论,但是所涉及的算法年代相对久远,没有涵盖现有强化学习的最新前沿算法,且主要面向小规模强化学习问题和分析。另外一部分书籍,例如上交大张伟楠老师的《动手学强化学习》,王树森的《深度强化学习》,则从实战角度出发,分析现有深度强化学习算法如何进行实现,关注算法在应用中的细节,忽略了对整体强化学习算法框架的构建,且对最新的算法鲜有涉及。
看了本书的目录,包含多目标强化学习、层次强化学习、离线强化学习、元强化学习等前沿的研究方向,关注强化学习的前沿算法和应用,系统的介绍了现阶段强化学习的前沿算法分支,可以说是本书的一大亮点。此外,还阐述了如何将这些算法应用到实际的大规模问题中,这是相关从业人员急需的学习材料。
最后一点小建议,提到离线强化学习,那么说明智能体无法与环境进行交互,因此需要其他方式来对策略进行性能评估,建议加上off-policy evaluation(离策略评估)的内容,与离线强化学习相互配合。另外,还可以加入安全强化学习或约束强化学习、因果强化学习等前沿的研究方向进行内容丰富。