腾讯AI-lab强化学习面经(已跪)
上来两个算法题
1.找旋转数组的旋转点。二分法比较简单
2.跳n台阶,一次可以跳随意个台阶,求跳的台阶数之积的最大值
dp写法O(n2)可以过,面试官问有无O(nlogn)乃至O(1)的数学解,想了2分钟,想不出
问ppo有replay buffer和importance sampling 是 onpolicy 还是offpolicy?基础没打好,这个基础题答错了
结束后10分钟查看网页情况,已经结束,跪的好快。。。。