如何处理离线强化学习中的OOD问题？ - 深度强化学习实验室

如何处理离线强化学习中的OOD问题？

RLer

在offlineRL中，由于OOD问题导致学习到的模型不能很好的泛化，目前有哪些主流的解决方法吗？

Learner

RLer 可以考虑一下约束方法，比如CQL之类的等等

Document