如何解决离线强化学习外延误差？ - 深度强化学习实验室

如何解决离线强化学习外延误差？

FeiY

各位大佬，在BCQ中作者提到了外延误差，除了论文里的解决方案，有没有其他可以解决离线强化学习外延误差的方法或者算法，求大佬们推荐一下，谢谢啦

sepilqi

对extrapolation error的理解：训练数据（通常是经验回放）和实际控制系统的状态分布不一致，导致策略的性能下降。

Document