请问各位大佬,深度强化学习训练次数怎么确定?
PonyShan
请参考这篇文章(收敛性)如何确定“深度强化学习”算法训练到收敛?,观察收敛情况设置
我觉得这个可以设置一个评估的最优epoch,如果大于超过之前最优的reward那就持续,否则就给停掉吧