面试字节大模型(LLMs)RAG面被问麻了~

  1. LORA 原理:解释 LORA(Low-RankAdaptation)的核心思想,如何通过低秩矩阵实现参数高效微调?数学形式如何表达?
  2. Self-Attention机制:自注意力机制中 O/K/ 矩阵的作用是什么?如何通过缩放点积计算注意力权重?公式推导并解释Softmax 的意义。
  3. 位置编码:Transformer为何需要位置编码?主流 LLM(如 LLaMA、GPT)使用哪种位置编码(如 ROPE)?相比绝对/相对位置编码有何优势?
  4. Seq2Seg 模型:Seq2Seq模型的核心组件是什么?Encoder-Decoder结构如何解决长程依赖问题?
  5. RAG技术:RAG(检索增强生成)的完整链路包含哪些步骤?为什么它能提升生成质量?
  6. 大模型幻觉:大模型产生幻觉的根本原因是什么?
  7. 显存计算:7B 模型在训练和推理时的显存占用如何估算?显存与参数量、批次大小、序列长度的关系是什么?
  8. 实习与论文:详细说明实习中解决的一个技术难点,涉及哪些模型或算法?如何评估效果?
  9. 链表操作:删除链表倒数第 N 个节点的算法思路?如何用双指针法实现?边界条件(如头节点删除)如何处理?

#大模型面试##大模型##AI##面试##RAG#
全部评论
面试题当然可以开源给大家 后台T一下
1 回复 分享
发布于 06-04 16:39 湖南

相关推荐

06-04 18:25
中南大学 Java
内向的柠檬精在研究求职打法:有没有可能你前端进不了大厂基本就废了?后端就算进不了大厂好歹还能吃饱吧 你不会以为人人都能进大厂吧
点赞 评论 收藏
分享
✅一面1.直接开始八股2.Transformer 中为什么用LN不用BN3.图像中 BN 是怎么用的4.在 NLP 中如果句子长度不一致,用 BN 会有什么后果5.给定三维矩阵bsz * seq_len * dim,BN和LN分别作用在哪个维度6.已知bsz seq_len dim head,参数量是多少,和哪几个参数有关7.带有多个注意力头的注意力机制计算过程8.说出pytorch中维度变换的函数9.显存OOM,参数,ZERO,vllm,梯度累积,优化器,混合精度10.讲一下实习经历11.长度外推技术12.觉得自己做得最好的点是什么13.使用华为的框架和显卡进行SFT有没有遇到什么问题14.LongLoRA和LoRA的区别15.算法题:返回第K大的数,要求比快排更快✅二面1.自我介绍2.询问实习时间3.快手推荐实习主要做的什么4.实习期间做了哪些优化5.LLM 的长度扩展策略有哪些6.介绍 YaRN7.用户是怎么用你们的工具的8.幻觉怎么判断出来,如何解决9.是否有调用外部搜索引擎10.有没有用到Agent和RAG11.910B适配过程中遇到的问题12.深挖NIPS论文13.下游任务介绍,效果为什么会有提升14.给了一个现实生活中的例子,你的这篇论文怎么套上去15.实习期间最大的挑战16.技术上最有难度的事情是什么17.转正和目前的offer情况✅三面1.自我介绍2.对京东的感受3.有没有觉得不好的地方4.HR 介绍了京东的价值观5.科研或者实习过程中有没有做过很创新的东西6.这个过程中有没有遇到什么很困难的事情7.交流技术的渠道一般都有哪些8.觉得之前实习工作强度如何9.目前的 offer 情况✴️算法求职辅导,欢迎后台联系
点赞 评论 收藏
分享
评论
3
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务