26秋招阿里云nlp一面凉经
1. 介绍bge-m3和bm25,bge-m3用的维度大小
2. 召回方案是什么?根据什么指标确定召回方案
3. 序列的长度
4. 实习项目中每一个优化点的原因
5. lora微调用了多少数据量?DPO呢?
6. 微调的什么模型?
7. sft和dpo数据是否有重合?怎么构建的?
8. 用的什么卡?一个epoch多久?一个step多久?几个step?batch size多少?rank多少?用的显存怎么估计?
9. 优化器用的什么?adamw和adam有什么区别?adam相较于梯度下降优化了什么?adam全称?
10. 模型评价指标都用了什么
11. TF-IDF?IDF全称?inverse怎么理解?
12. 2段实习中的自己的优缺点
13. offer选择考虑的因素
code:TF-IDF手撕
2. 召回方案是什么?根据什么指标确定召回方案
3. 序列的长度
4. 实习项目中每一个优化点的原因
5. lora微调用了多少数据量?DPO呢?
6. 微调的什么模型?
7. sft和dpo数据是否有重合?怎么构建的?
8. 用的什么卡?一个epoch多久?一个step多久?几个step?batch size多少?rank多少?用的显存怎么估计?
9. 优化器用的什么?adamw和adam有什么区别?adam相较于梯度下降优化了什么?adam全称?
10. 模型评价指标都用了什么
11. TF-IDF?IDF全称?inverse怎么理解?
12. 2段实习中的自己的优缺点
13. offer选择考虑的因素
code:TF-IDF手撕
全部评论
相关推荐
查看8道真题和解析 点赞 评论 收藏
分享