美的-NLP/大模型一面面经

📍面试公司:美的
👜面试岗位:NLP/大模型
📖面试问题:
1. 介绍bert
2. 因项目中用到了bert+crf,问了两者用到学习率是否一样?为什么不一样?
3. crf的转移矩阵和发射矩阵是什么?计算公式和计算结果是什么?
4. 大模型微调怎么做的?
5. Qwen的位置编码是怎么做的(rope和YaRN)
6. rope是加上去的还是乘上去的?bert的呢
7. rope是怎么应用在超出长度限制的输入上的,bert的位置编码可以用到超出长度限制的输入上吗
8. 如果大模型输入是4k长度,可以输出8k的长度输出吗
9. lora可以用在哪些地方?为什么可以用在ffn层?为什么作者一开始先用在q,k,v,o的权重矩阵上?
10. 如何理解低秩状态?
11. 在资源受限制的情况下(不能分布式),有10亿条数据,原本需要训练10亿次,怎么做能够减少训练次数,比如训练6-7亿次?这题不太明白,只回答了一个梯度累积

其他是一些项目问题
反问:
业务内容,岗位能力交叉性
🙌面试体验:已经无力,攒攒人品
#算法岗面试##算法面经#
全部评论

相关推荐

给我面没招了,发点面经攒攒人品~1* 项目拷打2* 项目的数据来源是什么?你是如何确定优化目标的?3* 比如数据从 100 条扩充到 1.2 万条,是否全通过自动化生成?生成的样本具体是什么样的?举个例子说明一下生成前后的对比4* 怎么保证自动化生成数据的正确性呢5* 在通过调整参数直到模型回答正确为止的过程中,是否意味着生成的CoT中存在错误逻辑?6* 经过数据清洗后,最终用于SFT的有效数据量是多少?7* 在做微调时,除了 LoRA 是否对比过其他的微调算法8* 你是如何评价微调效果的?测试集的比例是多少?微调前后的准确率分别是多少?原有的模型性能保留了多少?9* LLM常用的结构是什么?10* 说一下Transformer 的整体结构11* 目前主流大模型最常用的位置编码是什么?。12* 写一下多头注意力机制的数学公式。13* 公式中为什么要除以 \sqrt{d_k}?其对梯度消失或梯度爆炸有什么影响?14* 在 Transformer 的 Encoder 和 Decoder 中,哪些部分是可以并行计算的,哪些不可以?15* 除了 LoRA,你还了解哪些微调方法?16* 大模型训练通常使用什么损失函数17* 在机器学习基础中,二分类问题、多分类问题以及回归问题分别使用什么损失函数?18* 你了解哪些优化算法19* 模型训练中出现过拟合的常用解决方案有哪些?
查看18道真题和解析
点赞 评论 收藏
分享
评论
3
14
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务