- 已编辑
一面:
- 深挖ray的一些知识,怎么做梯度并行运算的
- 问了rllib一些相关的问题,记不太清了
- 写出Q-learning的公式
- sarsa的公式以及和Q-leaning的区别
- PPO和TRPO讲一下
- DDPG讲一下
- 问了一道数学概率题:涂红球的期望时间
- 一道算法题 U型桶注水最大面积的问题(用了暴力搜索的办法)问还有啥优化办法 没答上来
- 反问阶段
一面过
二面:
- 自我介绍 问了发的论文是什么会议
- 强化学习on-policy 、off-policy以及policy-based 和value-based的区别以及分别有哪些算法
- MC和TD 方法的区别
- 对IMPALA是否了解 看过paper 有印象 大概说了一下算法思想
- 对做的项目进行深挖 就强化学习的动作、状态以及奖励如何定义的,指标有哪些,包括状态和动作的维度是多少,那些算法效果比较好
- 一道算法题 棋盘搜索的问题 代码没完整写出来 让说了一下思路