腾讯大模型算法岗面经回放

1.个人介绍。
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

01-30 09:45
燕山大学 Java
喵_coding:这种直接跑就完事了 哪有毕业了才签合同 任何offer和三方都没有的
点赞 评论 收藏
分享
评论
1
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务