百度大模型算法三面-秋招面经
1.大模型灾难性遗忘是什么?怎么解决的?
2. 数据蒸馏的方法
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.讲DPO、PPO、RLHF什么
7.什么是旋转位置编码,解决了什么问题,为什么
8.讲lora微调,如果是全量参数sft需要多长时间?
9.实践过程中有什么值得注意的点
10.了解deepseek - R1吗,介绍一下
11. QWEN2的架构和训练方式
2. 数据蒸馏的方法
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.讲DPO、PPO、RLHF什么
7.什么是旋转位置编码,解决了什么问题,为什么
8.讲lora微调,如果是全量参数sft需要多长时间?
9.实践过程中有什么值得注意的点
10.了解deepseek - R1吗,介绍一下
11. QWEN2的架构和训练方式
全部评论
相关推荐
点赞 评论 收藏
分享
10-29 08:45
门头沟学院 Java 点赞 评论 收藏
分享
查看10道真题和解析 点赞 评论 收藏
分享

