京东大模型推理算法一面二面

有点久远了,今天刚二面,总结下。
非常喜欢的面试官(一面),很帅很专业很聪明很落地很……(此处省略100字)。
二面的leader没开摄像头,never mind,我就是个渣渣,无所谓的。

记录下没答上来的点吧,大伙凑活看
1. Deepseek部署:很落地,但是具体细节忘记了,当时没及时记录下来。这个很火,建议刚入门的朋友可以多看看dpsk新技术。
2. Treereduece:不知道,只知道ringreduce
3. mooncake:新技术,答到KTransformer(CPU+GPU异构加速)的时候,面试官提到的
4. EP dispatch combine
5. Pd分离 Deepseek - dual pipline chunked prefill
6. 多卡分布式训推
7. GEMM和GEMV实现和优化上的区别
8. contiueous batching
9. chunked batching
10. Offloading:系统资源不够用的时候,卸载用不到的kvcache,或者没有被激活的专家等等
11. GPU命中率

场景:
1. 分布式部署的时候怎么去解决io bound
2. Deepseek- MoE 部署  EP TP 部署优劣对比

评价:猜你没有看过vllm源码+对分布式了解还不够,然后也说了分布式需要资源,这也是实习的意义


二面:
1. 为什么会有KVcache?为什么没有Q cache?(正好以前研究时候手撕过,设想一个你好的prompt,模型也回答你好,关键地方在于对于同样一个token,kv embedding的时候是同样的结果)
2. Cuda除了gemm还做过哪些?(没有)
3. 学这些东西用了多久?(两个月。。答长了,怕觉得我,学了这么久还这么垃圾。答短了,怕觉得我,才学这么点时间,垃圾。当然,长还是短,看他咯)
4. 以后啥安排?会定居北京吗?(回答对象、父母安排,意向是留在北京,机会多些)提到租房,问我了解京东附近房价吗?(闲聊)
5. 叫我做好准备,工作强度不低,弱弱的问了一句时间,大概是10-8,还行吧,和学习的时间比起来这都还好。
6. 说我不够底层,确实吧,还得学啊,路漫漫其修远兮,吾将上下而求索

参考连接:
为什么加速LLM推断有KV Cache而没有Q Cache? - 莫叶何竹的回答 - 知乎
https://www.zhihu.com/question/653658936/answer/107469197025

Mooncake (1): 在月之暗面做月饼,Kimi 以 KVCache 为中心的分离式推理架构 - ZHANG Mingxing的文章 - 知乎
https://zhuanlan.zhihu.com/p/705754254

讲解的非常好,不是那么有基础的同学都可以试着了解一下【KTransformers 团队分享异构推理架构思路:基于内存的大模型推理成本优化】 https://www.bilibili.com/video/BV1VNQrYGEad/?share_source=copy_web&vd_source=0b7a45021acc545f42356bf3b2bb7080
全部评论
oc了吗
点赞 回复 分享
发布于 04-23 09:55 辽宁
点赞 回复 分享
发布于 04-18 11:27 香港

相关推荐

今天老师为大家梳理了10道RAG大模型必备面试题,供各位同学参考。1️⃣Q1:如何评估RAG生成结果的质量?A1:① 事实准确性(Factual Accuracy):对比标准答案;② 引用精确度(Citation Precision):生成内容与引用文档的相关性;③ ROUGE/L等自动指标(需谨慎,可能与事实性脱钩)。2️⃣Q2:如何优化检索的召回率(Recall)?A2:① 使用Query扩展(同义词替换/LLM改写);② 多向量表示(HyDE生成假设文档再检索);③ 调整分块策略(重叠分块/多粒度分块)。3️⃣Q3:RAG如何处理多文档冲突信息?A3:①  让LLM总结共识点并标注分歧(提示词控制);② 按文档来源权威性加权(如医学指南>普通文章);  ③ 返回多视角答案(需明确说明冲突存在)。4️⃣Q4:如何解决“检索偏好”问题(Retrieval Bias)?A4:当检索结果质量差时强制生成会导致错误。解决方案:① 训练检索评估模块过滤低质结果;② 引入回退机制(如返回“无答案”);③ 迭代检索(Re-Rank或多轮检索)。5️⃣Q5:如何优化长文档检索效果?A5:① Small-to-Big检索:先检索小分块,再关联其所属大文档;② 层次检索:先定位章节,再章节内分块检索;③ 图结构:用知识图谱关联文档片段。6️⃣Q6:解释HyDE(Hypothetical Document Embeddings)原理?A6:让LLM根据Query生成假设性答案,将其作为“伪文档”嵌入向量,再用该向量检索真实文档。解决Query与文档表述差异问题。7️⃣Q7:什么是迭代检索(Iterative Retrieval)?A7:多轮检索:首轮检索结果输入LLM生成初步答案,再以该答案为新Query二次检索,循环直到满足条件。适合复杂推理场景。8️⃣Q8:Self-RAG的核心创新点是什么?A8:引入可学习检索信号:模型自主决定何时检索(Retrieve on Demand),并生成特殊Token(如[Retrieval]、[No Retrieval])控制流程。9️⃣Q9:RAG如何适配实时更新知识库A9:① 检索器使用近实时索引(如Elasticsearch增量更新);② 生成器无需重训,但需监控新数据分布偏移。1️⃣0️⃣Q10:用户查询“2025年诺贝尔奖获得者”,但知识库只更新到2024年,RAG如何应对?A10:设计策略:① 检索器返回最新文档(2024年);② 生成器明确回答“截至2024年数据,最新获得者为XX,2025年结果尚未公布”;③ 添加时间敏感性警告。🍊如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
4
46
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务