- 已编辑
本帖主要面向Stable Baselines3项目Doc以及Stable Baselines3 Zoo的源码阅读讨论,欢迎大家一起参与
备注:请大家将问题在此处描述,评论区针对对应问题做回复
一、问题汇总
- 自己环境里的observation_space,不知道该怎么处理才能输入到神经网络,而不是Dict{}
- 待补充
本帖主要面向Stable Baselines3项目Doc以及Stable Baselines3 Zoo的源码阅读讨论,欢迎大家一起参与
备注:请大家将问题在此处描述,评论区针对对应问题做回复
dqn.learn中的参数total_timesteps是指训练的轮数还是每一轮中环境走的步数,以及如何将每一轮的奖励之和设置为优化的对象呢