美团算法一面

📍面试公司:美团

👜面试岗位:大模型春招

📖面试问题:

  1. 问了 PPO 重要性采样系数怎么才能为1?调节批量,学习率,超参数啥的 不懂,策略收敛最优解不就为一了吗
  2. grpo 的 GAE 怎么算,和批量大小有没有关系?为啥没有要PPO的v函数?
  3. 离轨策略和在线策略的关系?
  4. 冷启动 + grpo 怎么做的?
  5. 仿真寻优(实习项目)的 PPO 和 openai 的PPO有啥不同? 项目的p(s'|s,a)=1,状态转移矩阵非常稀疏

    手撕链表 切断+翻转+链表合并

    Input: 1->2->3->4->5->6->7

    Output: 1->7->2->6->3->5->4

    写了蛮久,一开始暴力求解,绕晕了。。果断转换思路,勉强做出来了

🙌面试体验:因为很早,校招通道没开,走的实习面试流程。

虽然我实习是RL岗位,但他确实没问什么llm的面经题和transformer还蛮意外的

除了第一问调参经验少了,基本答上了,大半周后拿到二面了

#美团##算法岗面试#
全部评论
太强了
点赞 回复 分享
发布于 03-25 00:05 广东

相关推荐

牛客10001:问就是六个月,全国可飞,给钱就干
点赞 评论 收藏
分享
评论
1
11
分享

创作者周榜

更多
牛客网
牛客企业服务