算法实习小红书大模型三面 技术面
攒攒人品!有面试过同岗的朋友欢迎评论区交流
1.项目用的什么开源dpo数据
2.全参数微调7B需要多少显存
3.FP16/BF16区别
4.AdamW显存计算
5.介绍Flash attention
6.介绍 gradient checkpoint
7.RougeL计算方法
8.代码:找数组第k大元素
1.项目用的什么开源dpo数据
2.全参数微调7B需要多少显存
3.FP16/BF16区别
4.AdamW显存计算
5.介绍Flash attention
6.介绍 gradient checkpoint
7.RougeL计算方法
8.代码:找数组第k大元素
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
