在REINFORCE with Baseline算法中,涉及到动作值函数Q与状态值函数V的估计问题
对于轨迹s1,a1,r1,s2,a2,r2,…..,动作值函数Q(st,at)估计为u(t)=r(t)+r(t+1)+r(t+2)….,状态值函数V估计为状态值函数网络的输出
但我不理解,为何状态值函数网络的训练目标同样为u(t)=r(t)+r(t+1)+r(t+2)….?这不是导致Q和V采取相同的估计了吗?U不仅代表了对Q的估计,也代表了对V的估计?那为何还能体现出Q与V的差距
请各位不吝赐教
V是为了减少MC采样时G的方差过大的问题,考虑V这个baseline在policy gradient中并无影响,因为V只与状态s有关,梯度为0,但是加上后,可以很大程度上减少G在采样过程中的方差,且V与G越相关,减小方差的效果越明显(详细过程可以看下协方差公式)