06-05 16:44 门头沟学院算法工程师发布于天津

关注

大模型面经每日总结(奇安信2025/6/5)

简述 Transformer 多头注意力机制理解词间关系的原理。
训练 Transformer 时，如何解决梯度消失或梯度爆炸问题？
GPT 等模型对 Transformer 结构做了哪些改进以提升生成效果？
如何优化 Transformer 模型预测速度？
说明 RAG 结合外部知识库与大语言模型提升回答准确性的机制。
用 RAG 构建问答系统时，如何处理检索内容不相关或不全的问题？
如何确定 RAG 系统中文档的合适切分粒度？
当 RAG 系统知识库数据量大、检索慢时，有哪些提速方法？
如何协同使用 Transformer 与 RAG 以发挥最佳效果？
用 RAG 优化模型回答，有哪些实用评估指标？
如何清洗 Transformer 模型训练数据中的噪声？
在 RAG 架构中，怎样确保检索信息与大模型生成内容逻辑连贯？

#奇安信##面经##大模型#

全部评论

推荐最新楼层

06-06 09:56

门头沟学院算法工程师

大模型面经每日总结（京东大模型实习）

1. 基础概念题：什么是大模型核心加速技术中的 “算子融合”？举例说明其作用。答案要点：算子融合是将多个连续计算算子合并为一个，减少计算图中的节点数和显存读写次数，降低延迟。举例：如将 Transformer 中的 Add（残差连接）与 RMSNorm（归一化）融合，减少两次内存访问，提升推理速度。2. 技术原理题：Flash Attention V2 如何优化注意力计算效率？与 V1 的核心区别是什么？答案要点：• V1：通过分块计算注意力，减少显存占用（避免存储所有中间键值对）。• V2：引入 “内外循环交换策略”，将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式，进一步提升计算效率，尤其在长序列场景下加速明显。3. 量化技术中，FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异？4. RAG 系统中，文档切分粒度如何影响检索和生成效果？实际中如何确定最优粒度？5.在长序列推理场景中，PagedAttention 和 Prefix Caching 分别解决什么问题？如何配合使用？答案要点：• PagedAttention：将 KV Cache 分块存储在非连续显存中，避免显存碎片，支持处理超长序列（如百万 Token）；• Prefix Caching：缓存历史对话的 KV 对，跨请求复用，减少重复计算（如多轮对话中复用上文缓存）。配合逻辑：PagedAttention 解决显存限制，Prefix Caching 减少计算量，两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中，如何根据需求选择量化方案？举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应；金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。

点赞评论收藏

06-03 19:25

已编辑

门头沟学院 Java

大模型面经（第二期）

上期写道刚开始面试的时候，这期写一写5月11号时候，这个时候手上就已经有两三家offer了，然后去北京的前一两天又发了三家offer随便选了个离公司近的工资高点的就去了。那么这期还是讲一下怎么去面试。其实面试的东西都一样，就是说你干过什么，回答问题就行了你要考虑的，不是这么去背八股文，而是要去琢磨到底要不要去实习，我个人而言，我最开始是因为电脑配置带不动才去好点的公司有好的卡给我用，然后呢去了也有工资，但是我的自由被限制了，我没法再天天琢磨新玩意我很痛苦，然后学会了怎么摸鱼，人家都是9点半来，我一开始是8点40到，我现在就吃了早饭再去差不多9点能到（就尽力偷懒还是最勤奋的那一批，因为人家都是老...

查看13道真题和解析牛客激励计划面试问题记录

点赞评论收藏

06-01 23:15

中山大学算法工程师

竞争激烈:米哈游大模型算法岗面经

1.请简述什么是大模型，以及它与传统模型的主要区别是什么？2.你如何评估大模型的性能？有哪些常用的评估指标？3.请描述一下你如何对大模型进行优化，以提高其性能和效率。4.你是否有过使用或开发大模型的经验？请分享一个具体的案例。5.大模型中的注意力机制是如何工作的？它在大模型中起到了什么作用？6.大模型中的优化算法有哪些常见的选择？它们各有什么优缺点？7.如何处理大模型训练过程中的梯度消失或梯度爆炸问题？8.在大模型设计中，如何权衡模型的复杂度和性能？9.面对大模型训练和推理所需的庞大计算资源，你有什么解决建议？10.请简述你了解的大模型的主要结构特点。11.reward bench上的reward model分哪几类?12. reward model如何训练的，训练目标是什么?13.dp0训练的损失函数和训练目标，dpo如何改进怎么理解大模型安全，包含哪些方面的内容？14.指令跟随能力的评估集有什么，如何评估的?15.阿尔法狗强化学习策略是什么?提升推理能力和指令跟随能力哪个更难, 为什么, 提升指令跟随能力的优化方式和其他的比如推理有什么不一样的地方?16.dpo训完了一般输出长度会变化吗? 如何解决这个问题大模型训练过程学习率一般是怎么变化的, 退火阶段学习率如何变化的?17.在开发大模型时，当你面临推理阶段的资源需求时，你如何确保模型的可解释性和公平性？18.谈谈你对Transformer模型的理解，以及它在自然语言处理中的应用。19.请简述Transformer的基本结构和工作原理？20.为什么Transformer使用位置编码(Positional Encoding)？21.如何优化 Transformer 模型的性能？22.Transformer在自然语言处理中有哪些应用？23.transformer里边norm的位置在哪里,norm如何计算的多头自注意力机制的作用是什么？24.注意力机制为什么除以根号dk, 为什么不是dk请解释什么是注意力机制，并举例说明其应用场景。25.注意力机制是如何工作的？请简述其计算过程。26.多头注意力机制是什么？它相比单头注意力有什么优势？📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看26道真题和解析

点赞评论收藏

05-31 16:41

门头沟学院 Java

大模型面经（第一期）

因为又被运营约稿了，然后也老被催更新，所以趁着放假就更新一下，这篇就写怎么去面试，怎么去准备大模型吧，这里也很有意思，这个牛客网在boss上来要我简历了，后面加了微信不过他们只要2-4年的资深大模型工程师。那么直接开始吧，本来打算早点更新的，不过嘛，下班之后一直在打游戏，对此只能说三角洲太好玩了，琳琅天上还是当年模样，好玩，想起小学时代玩的qq飞车了（时代眼泪了算是，现在人估计都没听过这个游戏了何况会去玩呢，真怀念那会边听歌边跑图）一晃便过去一个时代，这时间若白驹过隙，所以啊，诸君当是要珍惜时间和家人，不要太看重工作。先随便讲点吸引大伙注意力，那么直接开始今天的教程。先叠甲：以下的问题，基本上...

查看22道真题和解析牛客激励计划牛友故事会

点赞评论收藏

06-06 14:54

上海大学研发工程师

 两点半的面试，刚回寝室准备面试，迟到了一分钟，打开电脑的时候没接到hr电话呢，一看消息给我拉黑了，解释的机会都不给，苏州某捷医疗🐮

难上难nan：不是几分钟的问题，面试都能迟到（秋招面了大概二十家，就一家面试官迟到，其他都提前几分钟上线，基本素养），拉黑你没毛病，干脆利落

点赞评论收藏

招聘动态

26届投递链接合集

华泰证券Fintech星战营

全站热榜

华为开奖进度👉

热聊中

创作者周榜

正在热议