腾讯春招大模型算法一面 攒人品中

发一下问题给大家参考,攒攒人品!
1. 什么是MHA
2. Attention运算公式
3. 为什么除以根号dk
4. 介绍现有相对位置编码和绝对位置编码的异同点,都有哪些结构
5. RoPE的结构
6. RoPE相比于绝对位置编码的优势是什么?为什么外推性更好?
7. 为什么RoPE理论上可以无限外推?
8. RoPE为什么可以利用绝对位置和相对位置的优势?
9. 介绍RAG项目(基座模型是什么?几b ?全参微调用了多少卡?数据多大?问答对的形式有图片吗?
10. 对RAG的理解是什么?为什么要用RAG?
11. BGE模型的结构
12. 什么是LoRA?有个两层神经网络,参数1万*一万,低秩r =100, LoRA参数量是多少?
13. 为什么用KV Cache?
14. KV Cache有哪些优化方法?
15. 文生图/图生文结构了解吗?文生图的怎么解码的
16. CLIP了解吗?
17. Deepseek MOE架构路由机制的细节
18. 场景题
21. 手撕:快速排序
全部评论

相关推荐

03-30 18:50
门头沟学院 Java
给我面没招了,发点面经攒攒人品~1. 实习拷打2. 项目拷打3. 你的检索是否基于向量实现,搭建完整的 RAG 系统会涉及哪些核心部分?4. RAG 项目的文档上传和分块是怎么实现的?5. 向量检索召回的单次耗时是多久,有没有用到Rerank模型?6. 你如何评估检索召回内容与用户问题的匹配度,有没有做相关的效果评估?7. 你对 Agent 的理解是什么,它包含哪些核心模块?8. 是否了解 Agent 的设计范式,例如ReAct 范式?9. 你的 Agent 循环一般多少步可以完成任务,有没有出现过达到最大步数仍无法完成的情况?10. 你的 Agent 目前接入了哪些工具?11. 你是如何约定并约束大模型进行工具调用的?12. 你的项目推流是否使用 SSE?13. 你的 Agent 编排流程中有没有做 Plan 阶段?14. 从协议层面,介绍 SSE、WebSocket 与 HTTP 的区别和关联?15. 项目为什么限制每个用户只能上传单个文件?16. 项目的图像识别如何实现的,为什么不用多模态大模型,而选择传统的识别模型?17. 你的项目中用到了哪些大语言模型?18. 请介绍 Go 语言的并发和其他语言并发的区别?19. Goroutine 是什么,请介绍一下它的核心原理?20. 你对锁的理解是什么,锁是解决什么问题的?21. 日常开发中用哪种锁更多,还了解哪些后台开发常用的锁?22. 多机器、多进程场景下会涉及到哪些锁,是否了解分布式锁?23. 你对 MCP、Function Call、A2A 分别是怎么理解的?24. 你的项目接入了哪些 MCP 服务?有没有本地手写过 MCP 服务?25. 你日常开发会借助哪些 AI 工具?26. 使用这些工具的心得以及是否有写过相关的 command/skill?27. Claude Code 的实现原理?28. 是否了解OpenClaw以及了解它的实现原理?
LambertCla...:Claude Code实现原理都来了,难道是预测到了这波源码泄露
查看26道真题和解析
点赞 评论 收藏
分享
给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的?如果数据质量参差不齐会对 RAG 系统产生哪些影响?3.文档切分策略是如何设计的?chunk size 和 overlap 会如何影响召回质量和生成效果?4.如果用户的问题在知识库中确实存在,但系统经常没有召回正确文档,你会如何排查?5.如果检索到的文档是正确的,但模型最终生成的答案仍然是错误的,你会如何定位问题?6.实际系统中,如果召回结果经常语义相似但事实不相关,你会如何优化检索模块?7.如果一个问题需要跨多个文档的信息才能回答,你的 RAG 系统如何处理这种情况?8.在 RAG 系统中如何判断问题出在检索模块还是生成模块?9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构,这种设计对模型表达能力有什么作用?11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异?12.为什么推理阶段 KV Cache 只缓存 K 和 V,而不缓存 Q?13.RoPE 的核心原理是什么,它在长上下文场景下会遇到什么问题?14.instruction tuning 中多轮对话数据训练时,loss mask 应该如何设计?15.如果 SFT 之后模型在特定任务上能力增强,但通用能力明显下降,你会如何解决?16.LoRA 的低秩分解为什么能够逼近全参数微调的效果?17.如果 LoRA 的 rank 设置不合理,在模型表现上会出现什么现象?18.DPO 训练后模型输出明显变长,在实际系统中你会如何处理?19.如果对齐之后模型变得过于保守,经常拒绝回答,你会如何调整训练策略?20.大模型出现复读机现象通常由哪些因素导致?
点赞 评论 收藏
分享
继续来分享下最近的面经~欢迎友好讨论,信息共享1. Transformer 为什么能替代 RNN 成为大模型主流架构?2. Self-Attention 的计算过程是什么,时间复杂度为什么高?3. Multi-Head Attention 的作用是什么,为什么要分多个头?4. 位置编码为什么必要,绝对位置编码和相对位置编码有什么区别?5. 什么是 KV Cache,它为什么能显著提升推理效率?6. Prefix Cache 和 KV Cache 有什么区别,分别适合什么场景?7. 为什么大模型推理通常是 memory bound,而不是 compute bound?8. Batch 推理和单请求推理的吞吐与延迟 tradeoff 是什么?9. Continuous Batching 解决了什么问题,为什么对推理服务很重要?10. Prefill 和 Decode 两个阶段的性能瓶颈分别在哪里?11. 大模型采样里的 temperature、top-k、top-p 分别会怎样影响输出?12. 贪心解码、束搜索、随机采样分别适合什么生成任务?13. 重复惩罚和长度惩罚分别是为了解决什么问题?14. 为什么模型有时会出现“复读机”现象,通常怎么缓解?15. 量化是什么,INT8、INT4、FP16 的核心区别是什么?16. 推理量化会对模型效果造成什么影响,如何评估是否值得量化?17. 张量并行、流水线并行、数据并行分别适合哪个阶段?18. 单机多卡部署大模型时,通信开销主要来自哪里?19. 为什么 GPU 显存是大模型部署的核心约束之一?20. 模型参数量、上下文长度、并发数三者之间是什么关系?21. 什么是 MoE 模型,为什么它能在参数规模很大时控制推理成本?
查看21道真题和解析
点赞 评论 收藏
分享
评论
点赞
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务