正在加载...
请使用更现代的浏览器并启用 JavaScript 以获得最佳浏览体验。
加载论坛时出错,请强制刷新页面重试。
字节跳动算法岗(强化学习)面试总结
PonyShan
一面:
深挖ray的一些知识,怎么做梯度并行运算的
问了rllib一些相关的问题,记不太清了
写出Q-learning的公式
sarsa的公式以及和Q-leaning的区别
PPO和TRPO讲一下
DDPG讲一下
问了一道数学概率题:涂红球的期望时间
一道算法题 U型桶注水最大面积的问题(用了暴力搜索的办法)问还有啥优化办法 没答上来
反问阶段
一面过
二面:
自我介绍 问了发的论文是什么会议
强化学习on-policy 、off-policy以及policy-based 和value-based的区别以及分别有哪些算法
MC和TD 方法的区别
对IMPALA是否了解 看过paper 有印象 大概说了一下算法思想
对做的项目进行深挖 就强化学习的动作、状态以及奖励如何定义的,指标有哪些,包括状态和动作的维度是多少,那些算法效果比较好
一道算法题 棋盘搜索的问题 代码没完整写出来 让说了一下思路
本文来源自:
https://zhuanlan.zhihu.com/p/352462854
Document