携程推荐算法实习一面分享
攒攒人品!有面试过同岗的朋友欢迎评论区交流
1. 项目拷打
2. 你们整个项目组是怎么分工的?你具体负责哪一块?
3. SFT(监督微调)阶段的数据集是怎么构造的?
4. 为什么在 SFT 之后还要做强化学习(RLHF)?SFT 出来的模型具体存在什么问题?
5. 强化学习阶段为什么选择了 DPO 而不是 PPO?
6. DPO 的偏好数据(正确与错误样本)是怎么构造和评估的?
7. 你们是怎么评测模型生成的 C 语言代码质量的?
8. 简单讲讲你们 RAG 模块的检索逻辑和流程。
手撕代码环节
二分 冒泡
交叉熵和 KL 散度介绍一下
1. 项目拷打
2. 你们整个项目组是怎么分工的?你具体负责哪一块?
3. SFT(监督微调)阶段的数据集是怎么构造的?
4. 为什么在 SFT 之后还要做强化学习(RLHF)?SFT 出来的模型具体存在什么问题?
5. 强化学习阶段为什么选择了 DPO 而不是 PPO?
6. DPO 的偏好数据(正确与错误样本)是怎么构造和评估的?
7. 你们是怎么评测模型生成的 C 语言代码质量的?
8. 简单讲讲你们 RAG 模块的检索逻辑和流程。
手撕代码环节
二分 冒泡
交叉熵和 KL 散度介绍一下
全部评论
这rag是要结合算法模型吗

问的感觉似乎不是很多呀
攒人品!祝楼主面试顺利,早日拿到 offer🚀
携程推荐算法面经太硬核了!狠狠码住,感谢分享🙌
相关推荐
查看11道真题和解析 点赞 评论 收藏
分享
查看15道真题和解析 点赞 评论 收藏
分享
查看6道真题和解析 点赞 评论 收藏
分享