百度大模型算法岗三面
1.大模型灾难性遗忘是什么?怎么解决的?
2. 数据蒸馏的方法
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.讲DPO、PPO、RLHF什么
7.什么是旋转位置编码,解决了什么问题,为什么
8.讲lora微调,如果是全量参数sft需要多长时间?
9.实践过程中有什么值得注意的点
10.了解deepseek - R1吗,介绍一下
11. QWEN2的架构和训练方式
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2. 数据蒸馏的方法
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.讲DPO、PPO、RLHF什么
7.什么是旋转位置编码,解决了什么问题,为什么
8.讲lora微调,如果是全量参数sft需要多长时间?
9.实践过程中有什么值得注意的点
10.了解deepseek - R1吗,介绍一下
11. QWEN2的架构和训练方式
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐

点赞 评论 收藏
分享