百度大模型算法三面-秋招面经

1.大模型灾难性遗忘是什么?怎么解决的?
2. 数据蒸馏的方法
3.项目中怎么做的多任务学习,有用到经验回放吗
4.deepspeed三个阶段
5.计算attention时候为什么要除以根号dk,还有哪些scale处理?
6.讲DPO、PPO、RLHF什么
7.什么是旋转位置编码,解决了什么问题,为什么
8.讲lora微调,如果是全量参数sft需要多长时间?
9.实践过程中有什么值得注意的点
10.了解deepseek - R1吗,介绍一下
11. QWEN2的架构和训练方式
全部评论

相关推荐

友友们,我实在是不太明白,校招的话现在大多也是提前实习,然后转正也是需要考核的,考核通过才能转正,那这跟实习转正有什么区别啊
苦闷的仰泳鲈鱼刷了1...:提前实习,是让你提前熟悉业务的,后续是入职后可以减少试用期的(大部分是包入职的);转正实习,要是hc不够或者其他原因,让你正式offer可能都没有,这个风险很大。 ---个人看法和了解到的。
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务