场景:三根水管并联,且每根都有一个阀门开控制开度,然后三根水管汇集连接一个水压表,水压表另外一侧连接一个随机的用水水管,现在需要动态的调节阀门让水压表稳定在0.5(调节阀门后会有一个滞后变化过程)
我先从dcs采集数据,然后用lstm构建了env,用sb3 sac开始训练,看日志确实开始收敛奖励也越来越高。
但是效果还是不太好,想问一下大佬们lstm建模的问题,我感觉我lstm模型有问题,我现在是:采集了三个开度 水压表 和随即用水量,训练的时候用历史20步和当前的三个开度+用水量+压力(补零)来预测当前的压力。
求大佬指点一二!万分感谢!