美团算法一面
📍面试公司:美团
👜面试岗位:大模型春招
📖面试问题:
- 问了 PPO 重要性采样系数怎么才能为1?调节批量,学习率,超参数啥的 不懂,策略收敛最优解不就为一了吗
- grpo 的 GAE 怎么算,和批量大小有没有关系?为啥没有要PPO的v函数?
- 离轨策略和在线策略的关系?
- 冷启动 + grpo 怎么做的?
- 仿真寻优(实习项目)的 PPO 和 openai 的PPO有啥不同? 项目的p(s'|s,a)=1,状态转移矩阵非常稀疏
手撕链表 切断+翻转+链表合并
Input: 1->2->3->4->5->6->7
Output: 1->7->2->6->3->5->4
写了蛮久,一开始暴力求解,绕晕了。。果断转换思路,勉强做出来了
🙌面试体验:因为很早,校招通道没开,走的实习面试流程。
虽然我实习是RL岗位,但他确实没问什么llm的面经题和transformer还蛮意外的
除了第一问调参经验少了,基本答上了,大半周后拿到二面了
#美团##算法岗面试#