各位大佬,在BCQ中作者提到了外延误差,除了论文里的解决方案,有没有其他可以解决离线强化学习外延误差的方法或者算法,求大佬们推荐一下,谢谢啦
对extrapolation error的理解:训练数据(通常是经验回放)和实际控制系统的状态分布不一致,导致策略的性能下降。