百度大模型算法三面-秋招面经

1.大模型灾难性遗忘是什么?怎么解决的?
2. 数据蒸馏的方法
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.讲DPO、PPO、RLHF什么
7.什么是旋转位置编码,解决了什么问题,为什么
8.讲lora微调,如果是全量参数sft需要多长时间?
9.实践过程中有什么值得注意的点
10.了解deepseek - R1吗,介绍一下
11. QWEN2的架构和训练方式
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务