携程推荐算法实习一面分享

攒攒人品!有面试过同岗的朋友欢迎评论区交流
1. 项目拷打
2. 你们整个项目组是怎么分工的?你具体负责哪一块?
3. SFT(监督微调)阶段的数据集是怎么构造的?
4. 为什么在 SFT 之后还要做强化学习(RLHF)?SFT 出来的模型具体存在什么问题?
5. 强化学习阶段为什么选择了 DPO 而不是 PPO?
6. DPO 的偏好数据(正确与错误样本)是怎么构造和评估的?
7. 你们是怎么评测模型生成的 C 语言代码质量的?
8. 简单讲讲你们 RAG 模块的检索逻辑和流程。
手撕代码环节
二分 冒泡
 交叉熵和 KL 散度介绍一下
全部评论
这rag是要结合算法模型吗
点赞 回复 分享
发布于 04-16 23:18 辽宁
问的感觉似乎不是很多呀
点赞 回复 分享
发布于 04-16 18:55 北京
攒人品!祝楼主面试顺利,早日拿到 offer🚀
点赞 回复 分享
发布于 04-16 15:51 江苏
携程推荐算法面经太硬核了!狠狠码住,感谢分享🙌
点赞 回复 分享
发布于 04-16 15:51 北京

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务