秋招面经-百度NLP算法一面
项目
拷打半小时
八股
1. CPT和Pretrain的差别,IFT和SFT的差别
2. RLHF、DPO有训过吗,讲下原理
3. 介绍GRPO的优化
4. 讲下Transformer架构
5. Attention公式,除根号d有什么作用,缓解梯度爆炸还是消失
6. Norm为什么用LN层而不是BN层
7. RMSNorm,PreNorm和PostNorm区别
8. 有做过模型量化部署的工作吗
代码
买卖股票I用dp写,买卖股票II用dp写
反问
1. 可选base地
拷打半小时
八股
1. CPT和Pretrain的差别,IFT和SFT的差别
2. RLHF、DPO有训过吗,讲下原理
3. 介绍GRPO的优化
4. 讲下Transformer架构
5. Attention公式,除根号d有什么作用,缓解梯度爆炸还是消失
6. Norm为什么用LN层而不是BN层
7. RMSNorm,PreNorm和PostNorm区别
8. 有做过模型量化部署的工作吗
代码
买卖股票I用dp写,买卖股票II用dp写
反问
1. 可选base地
全部评论
相关推荐
点赞 评论 收藏
分享
11-14 16:03
西北政法大学 新媒体运营 点赞 评论 收藏
分享
点赞 评论 收藏
分享

