腾讯大模型算法 日常实习 一面
发一下问题给大家参考,攒攒人品!
1.项目拷打
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
1.项目拷打
2. Qwen和DeepSeek的技术差异。
3.当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。
4.介绍RLHF的实施流程。
5. RLHF对齐流程解析。
6.说明 SFT (监督微调)和 RLHF (基于人类反馈的强化学习)的具体作用。
7. LORA (低秩自适应)的核心原理。
8.使用 SFT 存在哪些局限性。
9.手撕实现"括号生成"问题( LeetCode 22),要求生成 n 对有效括号的所有组合。
全部评论
相关推荐
昨天 21:00
蚌埠坦克学院 嵌入式软件开发 今年的金三银四感觉有点淡,岗位数量没有想象中那么多,很多公司也变得更谨慎了。投出去的简历不少,但面试机会并不算多。就业环境确实比以前紧张一些,不过也不用太焦虑,慢慢准备、持续投递,总会遇到合适的机会。
点赞 评论 收藏
分享