牛客310281160号

2025-12-23 15:28 门头沟学院算法工程师发布于江苏

关注

攒人品：小米大模型算法面经

flash attention解释下
gqa解释下
怎么才能训练好一个sft过程？
sft的loss计算是用什么计算的？
lora原理
lora参数权重初始化
lora的r和缩放参数
dpo的loss
dpo数据集怎么构造比较好？
如果dpo训练过程中，accept回答和reject回答的loss都在升高，怎么办？
假如说dpo效果不好，怎么解决？
多轮对话一般要怎么训练？
rag的流程？
检索时，只用关键字匹配会存在问题，怎么具体解决？（没有上下文语义信息）
给定一个网页，如何提取其中的关键信息

全部评论

推荐最新楼层

不知道怎么取名字_

西安工程大学嵌入式工程师

你这是base哪里的，低几轮面试的

点赞回复分享

发布于 01-25 18:56 陕西

湖南大学安卓

请问base是哪里的呀

点赞回复分享

发布于 2025-12-29 16:33 江西

门头沟学院安卓

是南京的岗位吗

点赞回复分享

发布于 2025-12-24 21:30 北京

嵌入式的小白

西安理工大学嵌入式软件开发

你这个base是那里的

点赞回复分享

发布于 2025-12-24 19:08 陕西

02-21 15:47

上海交通大学算法工程师

阿里大模型一面

岗位名称：大语言模型算法面试时长：1h–1.5h自评分：8/10是否下一轮：是模型架构与基础原理目前主流大语言模型在架构设计上有哪些异同点？（追问）Decoder-only 和 Encoder-Decoder 在实际应用场景上有什么区别？介绍一下大语言模型中的注意力机制，多头相比单头注意力有何优势？（追问）如果减少头数会发生什么？是否一定性能下降？什么是大语言模型的涌现能力？目前对该现象的研究有哪些发现？（追问）涌现能力是否和模型规模线性相关？什么是 Embedding？词嵌入和句嵌入有何不同？（追问）Embedding 层是否会参与微调？为什么？大语言模型中的 Tokenization 是如...

技术必备题库

点赞评论收藏

分享

03-06 20:37

湖南大学算法工程师

科大讯飞算法工程师(大模型方向实习)

1. 场景题: 用户上传好几篇论文，AI能够精准总结并且能输出对比表格，怎么让Qwen具有这样的能力，全流程是什么？2. 微调的数据集哪里来的？数据怎么处理的？3. 会不会Linux4. 如何评估数据集的质量

查看4道真题和解析

点赞评论收藏

分享

03-02 22:36

上海工程技术大学人工智能

大模型岗位内推

27届大模型实习，SFT、RL、Agent、Prompt 工程都能干，太卷了，求各位大佬内推实习Bg：1. 上海人工智能实验室书生实训营十佳项目、优秀营员（Agent，多家公众号宣传）；2. EMNLP一作、ACL多篇在投，方向围绕安全对齐、CoT、LoRA；3. 围绕 RL、SFT、Pretrain 实现小参数基座模型 BludLM（有A100算力随时随地可用）；4. 项目层面，MutiAgent-Search（无GPS图寻地址，Agent）、FreeKnowledgeAI（搜索引擎，tool）；5. 实习层面，目前在华为 MindSpore 参与开源实习，负责案例研发；

关于提前批我想问

点赞评论收藏

分享

02-26 13:15

门头沟学院机器学习

小米具身智能算法实习1面

非常有挑战性且开放的一次面试，无八股无手撕1. 假如让你从零构建一个 vla 模型 你对他的架构的设计是怎么样的？为什么2. 假如让你写一篇 vla+rl 的 综述，你会怎么写3. 你怎么看 vla 大模型 和 世界模型两条 具身智能的技术路线4. 你对vla模型的改进有哪些？5. 你认为从长远来看 vla 可以有哪些工作可以做来克服具身智能的挑战。

查看5道真题和解析

点赞评论收藏

分享

03-07 09:25

门头沟学院推荐算法

大模型算法实习面经-字节跳动

给我面没招了。。。1. 项目拷打2. 详细阐述Transformer的底层原理，并说明其能够替代RNN的核心优势；结合Transformer架构的成熟度，分析Self-Attention机制在多模态对齐任务中是否存在瓶颈，以及在实际业务场景中，是否出现过注意力权重完全偏移的情况。3. 讲解LoRA的技术原理，说明LoRA是否仅能嵌入Linear层；分析LoRA无法在LayerNorm层之后插入的原因，以及该操作会对模型训练稳定性产生哪些具体影响。4. 结合实操经验，说明QLoRA降低训练资源成本的核心逻辑；列举常见的模型量化方式，并解释QLoRA选择NF4与FP16组合而非其他方案的原因，阐述NF4的分布拟合逻辑。5. 针对采用multi-query attention优化后，decoder延迟仍居高不下的问题，分析潜在性能瓶颈；探讨vLLM自带的KV Cache是否会成为推理过程中的负担。6. 分别说明Embedding模型与Rerank模型处理文本语料的核心流程，并结合实际应用场景举例说明。7. 结合过往RAG项目经验，讲解从数据清洗到检索服务上线的完整链路搭建流程，重点说明chunk切分的具体策略。8. 分析当前RAG技术落地的最大瓶颈，并阐述你在项目中采取过哪些优化手段来提升检索召回率（Recall）。9. 针对XX领域大模型的训练工作，说明SFT（监督微调）数据集的构造方法与核心思路。10. 结合LoRA微调实操经历，说明rank值的选择依据；在合并adapter权重的过程中，是否遇到过梯度爆炸问题，以及对应的解决方法。11. 结合你的模型部署相关经验，说明模型参数量与硬件算力需求之间的对应关系（例如不同参数量级模型所需的算力配置标准）；以部署一个稀疏率千分之三的235B参数量MOE架构模型为例，估算其所需的算力规模。12. 在搭建RAG知识库时，若需对文档进行动态更新，你采用的是全量嵌入还是增量处理方案？若为增量处理，如何规避新旧文档数据分布不一致导致的检索偏差问题。

点赞评论收藏

分享

评论

3

10

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招 / 实习投递，你最焦虑的一件事 #

7036次浏览 102人参与

# 27届求职交流 #

23660次浏览 469人参与

# 神州信息求职进展汇总 #

4831次浏览 74人参与

# 今天你投了哪些公司？ #

6110次浏览 146人参与

# 26届求职交流 #

12356次浏览 341人参与

# 刚工作的你，踩过哪些坑？ #

1064次浏览 28人参与

# 哪一刻你对工作祛魅了？ #

3021次浏览 29人参与

# AI时代下，你的岗位要求有什么变化？ #

1758次浏览 43人参与

# 你感受到金三银四了嘛？ #

1897次浏览 23人参与

# 找工作，你都让AI帮你做什么？ #

1046次浏览 40人参与

# 如果给AI员工评绩效，我的答案是…… #

823次浏览 29人参与

# 实习学不到东西正常吗？ #

1557次浏览 26人参与

# HR问：你期望的薪资是多少？如何回答 #

80491次浏览 685人参与

# 今年找实习到底有多难？ #

3449次浏览 33人参与

# 虽然0面试，但今天___，夸夸自己 #

853次浏览 21人参与

# 你觉得mentor喜欢什么样的实习生 #

51911次浏览 1012人参与

# 三月的小目标 #

34083次浏览 616人参与

# 运营面经 #

160995次浏览 1351人参与

# 秋招落幕，你是He or Be #

61199次浏览 628人参与

# 交出你的校招焚诀 #

24092次浏览 350人参与

# 面试___岗的必刷题单 #

26394次浏览 480人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务