小红书大模型算法 实习面经
继续来分享下之前的面经~欢迎友好讨论,信息共享
1. LLaMA 相比原始 Transformer 架构有哪些改进?
2. 微调(Fine-tuning)和对齐(Alignment)的区别?
3. 模型微调到什么程度才需要进行对齐?
4. 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
5. 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
6. GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
7. 损失采样(Loss Sampling)相关问题?
8. 目前了解哪些大模型架构?例如 LLaMA 等。
9. 是否了解 PagedAttention?
10. LoRA 中两个低秩矩阵是如何初始化的?
11. PPO 中的四种模型分别是什么?各自的作用是什么?
1. LLaMA 相比原始 Transformer 架构有哪些改进?
2. 微调(Fine-tuning)和对齐(Alignment)的区别?
3. 模型微调到什么程度才需要进行对齐?
4. 四种对齐算法的区别:PPO、DPO、GRPO、DSPO?
5. 位置编码的作用?为什么相对位置编码通常比绝对位置编码更好?
6. GAE(Generalized Advantage Estimation)以及重要性采样(Importance Sampling)?
7. 损失采样(Loss Sampling)相关问题?
8. 目前了解哪些大模型架构?例如 LLaMA 等。
9. 是否了解 PagedAttention?
10. LoRA 中两个低秩矩阵是如何初始化的?
11. PPO 中的四种模型分别是什么?各自的作用是什么?
全部评论
相关推荐
03-15 23:11
南开大学 Java
牛客91882925...:慢慢来,别给自己那么大压力,天无绝人之路。学习中成长,这背景已经超越绝大多数牛友了。多面几次就好了,我第一次面试前睡都睡不好,不过面试官人还好,进行一会面试就注意力全在题上了。所以跟面试官关系也很大 点赞 评论 收藏
分享
查看17道真题和解析 点赞 评论 收藏
分享
昨天 19:32
广东工业大学 Web前端 点赞 评论 收藏
分享