腾讯Teg大模型暑期算法面经
1.自我介绍
2.介绍主流 Transformer-based 模型架构
3.讲一下 LoRA 原理
4.为什么 SFT 之后还要进行后训练
5.讲一下 DPO 的损失函数怎么计算
6.讲一下 GRPO 原理
7.使用 GRPO 时,构造数据要符合什么要求
8.熟悉哪些 Agent 框架
9.如果要设计一个好的 Agent,除了大模型,还会设计哪些部分
10.怎么构造高质量训练集
11.Dense 模型和 MoE 模型有什么区别
12.量化发挥作用的原理是什么
13.讲一下 ZeRO-1、ZeRO-2、ZeRO-3
14.如果显存有限,会选择哪个方案训练
15.算法题:
LeetCode 56 合并区间
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.介绍主流 Transformer-based 模型架构
3.讲一下 LoRA 原理
4.为什么 SFT 之后还要进行后训练
5.讲一下 DPO 的损失函数怎么计算
6.讲一下 GRPO 原理
7.使用 GRPO 时,构造数据要符合什么要求
8.熟悉哪些 Agent 框架
9.如果要设计一个好的 Agent,除了大模型,还会设计哪些部分
10.怎么构造高质量训练集
11.Dense 模型和 MoE 模型有什么区别
12.量化发挥作用的原理是什么
13.讲一下 ZeRO-1、ZeRO-2、ZeRO-3
14.如果显存有限,会选择哪个方案训练
15.算法题:
LeetCode 56 合并区间
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
04-21 19:15
门头沟学院 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
