policy gradient 针对连续动作训练神经网络的时候，输出的动作总为0

policy gradient 针对连续动作训练神经网络的时候，输出的动作总为0，想用bn归一化但是每次只输入一条数据，不知道怎么做？想请教一下

Document