腾讯大模型算法岗面经回放
1.个人介绍。
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
等闲_:把mt的写上,还有我感觉也不咋用包装,把业务讲清楚就行,面试官也不是不清楚实习生会干啥 点赞 评论 收藏
分享
码农索隆:和优秀的人,做有挑战的事
点赞 评论 收藏
分享

查看11道真题和解析