debug官方源代码的时候,发现每次决策的时候好像使用的是同一个RNNAgent网络,真实情况是这样的吗?这样做不会有什么问题吗?(期待有懂得的大佬解答!)

说点什么吧...
Document