理想大模型实习面经

1.自我介绍
介绍项目
项目我尽量说的久,面试官中途打断了。
2.LLAMA 和 ChatGLM 的区别
Norm, mask, 激活函数 位置嵌入这四方面答
3.BatchNorm 和 LayerNorm 什么区别
后面进入快问快答。。。。很奇怪的一个环节
1. Bert 的参数量是怎么决定的
(没答上来, 不太理解这是考什么角度)
2. Transformer 的位置 embedding 怎么计算(三角函数。。。没了,就是这么快)
3. p tuning v2 和 prompt tuning 的区别
4.常用的分词方式
5.多头注意力机制和单个注意力机制时间复杂度会变吗?
6. 有了解过怎么解决灾难性遗忘吗?

还有一些小问题,有点记不住了。整体八股不难。重点还是项目。
算法题没做,让我当场写一下 pytorch 的一些常用的算法,就是看看我这些代码熟练度怎么样。我就随便写了一下 SFT 的数据预处理。
全部评论
佬,得物春招正在进行中,你要是感兴趣可以去我主页帖子投递一下
2 回复 分享
发布于 2024-03-12 14:25 陕西
面经千篇一律,大佬讲讲项目好了
点赞 回复 分享
发布于 2024-04-06 04:49 江西
感觉像是我之前遇到的一个面试官(他们面试太神秘了
点赞 回复 分享
发布于 2024-03-25 16:08 北京
你永远可以相信理想没用任何技术
点赞 回复 分享
发布于 2024-03-24 14:36 天津
佬,这是日常实习还是暑期实习
点赞 回复 分享
发布于 2024-03-09 23:16 重庆
pytorch 的一些常用的算法,指的啥,能详细讲讲吗
点赞 回复 分享
发布于 2024-03-08 09:13 安徽
m
点赞 回复 分享
发布于 2024-03-07 17:42 广东

相关推荐

攒人品中,祝大家都能拿到满意的Offer!1*项目拷打2* 实习拷打3* KL 散度的数学意义是什么?在模型对齐(如 PPO/DPO)中起什么作用?4* MoE架构的具体实现原理是什么?路由(Router)是如何工作的?5* 面对模型在生成过程中出现循环、重复回答的问题,有哪些解决办法?6* BM25 算法的数学原理是什么?它相比于简单的 TF-IDF 有哪些改进?7* Agent 系统中的LangGraph是如何搭建的?其 Memory 组件的工作机制是怎样的?8* 如果单次生成的任务量远大于模型的 Max Tokens 限制,如何实现断点继续生成?9* Transformer 中 Attention 的本质是什么?请从数学角度解释。10* 为什么在计算 Attention 时需要进行Scaling11* Self-Attention 和 Cross-Attention 在作用和输入来源上有什么区别?12* 面对极长序列Attention 的 O(L^2) 复杂度问题目前有哪些主流解决方案?13* 在 Agent 多轮对话任务中,Attention 机制的局限性体现在哪些方面?14* 为什么模型在长上下文对话中容易出现“信息遗忘”?有哪些缓解机制?15* 介绍 SFT的流程,以及如何构建高质量、多样化的数据集?16* 在什么业务场景下,必须引入 RLHF 或 DPO 这种偏好对齐技术?17* MinerU 在解析复杂的工业文档(如图文混排)时,具体的处理逻辑是怎样的?18* 在多模态检索中,文本和图片是如何映射到同一个统一向量空间的?19* Ragas 评测框架中的 Faithfulness 和 Answer Relevance 指标的具体计算逻辑是什么?
查看17道真题和解析
点赞 评论 收藏
分享
祝大家都能拿到满意的Offer!1. 项目拷打2. 详细阐述Transformer的底层原理,并说明其能够替代RNN的核心优势;结合Transformer架构的成熟度,分析Self-Attention机制在多模态对齐任务中是否存在瓶颈,以及在实际业务场景中,是否出现过注意力权重完全偏移的情况。3. 讲解LoRA的技术原理,说明LoRA是否仅能嵌入Linear层;分析LoRA无法在LayerNorm层之后插入的原因,以及该操作会对模型训练稳定性产生哪些具体影响。4. 结合实操经验,说明QLoRA降低训练资源成本的核心逻辑;列举常见的模型量化方式,并解释QLoRA选择NF4与FP16组合而非其他方案的原因,阐述NF4的分布拟合逻辑。5. 针对采用multi-query attention优化后,decoder延迟仍居高不下的问题,分析潜在性能瓶颈;探讨vLLM自带的KV Cache是否会成为推理过程中的负担。6. 分别说明Embedding模型与Rerank模型处理文本语料的核心流程,并结合实际应用场景举例说明。7. 结合过往RAG项目经验,讲解从数据清洗到检索服务上线的完整链路搭建流程,重点说明chunk切分的具体策略。8. 分析当前RAG技术落地的最大瓶颈,并阐述你在项目中采取过哪些优化手段来提升检索召回率(Recall)。9. 针对XX领域大模型的训练工作,说明SFT(监督微调)数据集的构造方法与核心思路。10. 结合LoRA微调实操经历,说明rank值的选择依据;在合并adapter权重的过程中,是否遇到过梯度爆炸问题,以及对应的解决方法。11. 结合你的模型部署相关经验,说明模型参数量与硬件算力需求之间的对应关系(例如不同参数量级模型所需的算力配置标准);以部署一个稀疏率千分之三的235B参数量MOE架构模型为例,估算其所需的算力规模。12. 在搭建RAG知识库时,若需对文档进行动态更新,你采用的是全量嵌入还是增量处理方案?若为增量处理,如何规避新旧文档数据分布不一致导致的检索偏差问题。13. 针对机械臂动作态融合相关工作,说明数据融合的具体实现方案,以及对比实验的设计思路与评估指标。
查看12道真题和解析
点赞 评论 收藏
分享
评论
17
124
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务