小米日常实习大模型面经
项目介绍+拷打
1.每一步骤以后获得回答的变化,*在项目里sft和rlhf后大模型回答有什么变化,举例说明
2.sft和 rlhf的作用有什么区别
3.*sft如果用 dpo的chosen回答直接做sft的话还需要 rhf吗?
八股
1.sft有哪些方式?除了lora还有哪些?lora中为什么低秩矩阵是能够表示增量的?怎么初始化的?为什么要这么初始化?
2.ppo、grpo、dpo(critic model和rewardmodel,哪个是未来价值,组内相对优势怎么计骎算,*如果组内差距大的话会对训练有什么影响?有没有佬说一下这个怎么答
coding(二选一)
1.手撕 transformer,输入一个矩阵然后输出经过transformer块以后的结果,不能使用torch,只能使用 numpy
2.非 hot100 leetcode困难地下城游戏
1.每一步骤以后获得回答的变化,*在项目里sft和rlhf后大模型回答有什么变化,举例说明
2.sft和 rlhf的作用有什么区别
3.*sft如果用 dpo的chosen回答直接做sft的话还需要 rhf吗?
八股
1.sft有哪些方式?除了lora还有哪些?lora中为什么低秩矩阵是能够表示增量的?怎么初始化的?为什么要这么初始化?
2.ppo、grpo、dpo(critic model和rewardmodel,哪个是未来价值,组内相对优势怎么计骎算,*如果组内差距大的话会对训练有什么影响?有没有佬说一下这个怎么答
coding(二选一)
1.手撕 transformer,输入一个矩阵然后输出经过transformer块以后的结果,不能使用torch,只能使用 numpy
2.非 hot100 leetcode困难地下城游戏
全部评论
相关推荐
查看11道真题和解析 点赞 评论 收藏
分享
11-08 01:32
山东大学 C++ 点赞 评论 收藏
分享
