• RL资源
  • 字节跳动算法岗(强化学习)面试总结

一面:

  1. 深挖ray的一些知识,怎么做梯度并行运算的
  2. 问了rllib一些相关的问题,记不太清了
  3. 写出Q-learning的公式
  4. sarsa的公式以及和Q-leaning的区别
  5. PPO和TRPO讲一下
  6. DDPG讲一下
  7. 问了一道数学概率题:涂红球的期望时间
  8. 一道算法题 U型桶注水最大面积的问题(用了暴力搜索的办法)问还有啥优化办法 没答上来
  9. 反问阶段

一面过

二面:

  1. 自我介绍 问了发的论文是什么会议
  2. 强化学习on-policy 、off-policy以及policy-based 和value-based的区别以及分别有哪些算法
  3. MC和TD 方法的区别
  4. 对IMPALA是否了解 看过paper 有印象 大概说了一下算法思想
  5. 对做的项目进行深挖 就强化学习的动作、状态以及奖励如何定义的,指标有哪些,包括状态和动作的维度是多少,那些算法效果比较好
  6. 一道算法题 棋盘搜索的问题 代码没完整写出来 让说了一下思路
说点什么吧...
Document