最近在训练过程中,发现reward振荡,明明已经得到最高奖励了,但是再训练就开始起伏很大。所以想问一下有没有判断已达到最优然后自动结束训练的方法呢?就是不需要再去设定训练次数了,判断收敛就自动结束训练?

    是否是算法中加入的探索导致的波动呢,如果是的话可以在训练后期慢慢减少探索

      10 天 后
      说点什么吧...
      Document