字节跳动算法岗（强化学习）面试总结

PonyShan · 2021-02-28T08:17:13+00:00

一面：深挖ray的一些知识，怎么做梯度并行运算的问了rllib一些相关的问题，记不太清了写出Q-learning的公式 sarsa的公式以及和Q-leaning的区别 PPO和TRPO讲一下 DDPG讲一下问了一道数学概率题：涂红球的期望时间一道算法题 U型桶注水最大面积的问题（用了暴力搜索的办法）问还...

字节跳动算法岗（强化学习）面试总结

PonyShan

一面：

深挖ray的一些知识，怎么做梯度并行运算的
问了rllib一些相关的问题，记不太清了
写出Q-learning的公式
sarsa的公式以及和Q-leaning的区别
PPO和TRPO讲一下
DDPG讲一下
问了一道数学概率题：涂红球的期望时间
一道算法题 U型桶注水最大面积的问题（用了暴力搜索的办法）问还有啥优化办法没答上来
反问阶段

一面过

二面：

自我介绍问了发的论文是什么会议
强化学习on-policy 、off-policy以及policy-based 和value-based的区别以及分别有哪些算法
MC和TD 方法的区别
对IMPALA是否了解看过paper 有印象大概说了一下算法思想
对做的项目进行深挖就强化学习的动作、状态以及奖励如何定义的，指标有哪些，包括状态和动作的维度是多少，那些算法效果比较好
一道算法题棋盘搜索的问题代码没完整写出来让说了一下思路

本文来源自： https://zhuanlan.zhihu.com/p/352462854

Document