简要说明一下,横坐标为episode,纵坐标为每个episode的return
在前1000个episode为探索阶段,后1000个为训练阶段,但是代码里面实际上每个episode都会做optimize。
采用贪心策略进行探索。我觉得return应该会逐渐升高,最后收敛,而不是现在这样变低。