腾讯大模型算法岗面经回放
1.个人介绍。
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
点赞 评论 收藏
分享
05-15 14:42
贵州大学 Java 点赞 评论 收藏
分享
04-11 10:38
电子科技大学 Java
牛客100866号技...:把电科加粗,把电科加粗,把电科加粗,两个吊车尾的项目合并成一个,再加一个管理系统。电科✌🏻在成都面中厂手拿把掐 点赞 评论 收藏
分享
查看6道真题和解析
英雄游戏成长空间 36人发布