• 问题求助 算法问题
  • 请问大家是如何一步步复现深度强化学习算法的?并论文中的各种环境、结果图进行实现,求交流

主要包括以下几个方面,不知道有没有相关的详细博客?

  • 如何阅读论文,发现关键信息?
  • 如何构造并coding代码,对基本的摆杆啥的环境测试通?
  • 如何对论文中的各种测试环境,结果图进行复现?(目前大多数代码只是在摆杆啥的环境上做验证

有没有伙伴评论区交流一下,谢谢。

GitHub上有很多关于深度强化学习论文对应的代码,将这些一篇论文代码搞懂并且想到创新对其代码进行更改是值得挑战的事情

我是首先阅读了Sutton的《强化学习》作为入门,之后又阅读了肖智清的《强化学习原理与Python实现》,里面有DDPG、TD3、PPO、TRPO等经典算法的代码,自己撸一遍收获颇多,我现在的项目代码风格也是借鉴了这本书。不过里面的算法测试均是基于Gym环境,在应用到自己的项目上时,显然环境部分就需要自己去设计了,尤其是Reward的设计,十分关键。
深度学习部分我主要是看了《Python深度学习》和复旦大学邱锡鹏老师的《神经网络与深度学习》,前者注重实践,后者重理论。
以上都是基础,在此之上再去看论文、搭建自己的项目就会更加从容。

说点什么吧...
Document