26秋招阿里云nlp一面凉经

1. 介绍bge-m3和bm25,bge-m3用的维度大小
2. 召回方案是什么?根据什么指标确定召回方案
3. 序列的长度
4. 实习项目中每一个优化点的原因
5. lora微调用了多少数据量?DPO呢?
6. 微调的什么模型?
7. sft和dpo数据是否有重合?怎么构建的?
8. 用的什么卡?一个epoch多久?一个step多久?几个step?batch size多少?rank多少?用的显存怎么估计?
9. 优化器用的什么?adamw和adam有什么区别?adam相较于梯度下降优化了什么?adam全称?
10. 模型评价指标都用了什么
11. TF-IDF?IDF全称?inverse怎么理解?
12. 2段实习中的自己的优缺点
13. offer选择考虑的因素
code:TF-IDF手撕
全部评论

相关推荐

11-14 16:15
已编辑
湖南工业大学 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务