京东大模型推理算法一面二面

有点久远了,今天刚二面,总结下。
非常喜欢的面试官(一面),很帅很专业很聪明很落地很……(此处省略100字)。
二面的leader没开摄像头,never mind,我就是个渣渣,无所谓的。

记录下没答上来的点吧,大伙凑活看
1. Deepseek部署:很落地,但是具体细节忘记了,当时没及时记录下来。这个很火,建议刚入门的朋友可以多看看dpsk新技术。
2. Treereduece:不知道,只知道ringreduce
3. mooncake:新技术,答到KTransformer(CPU+GPU异构加速)的时候,面试官提到的
4. EP dispatch combine
5. Pd分离 Deepseek - dual pipline chunked prefill
6. 多卡分布式训推
7. GEMM和GEMV实现和优化上的区别
8. contiueous batching
9. chunked batching
10. Offloading:系统资源不够用的时候,卸载用不到的kvcache,或者没有被激活的专家等等
11. GPU命中率

场景:
1. 分布式部署的时候怎么去解决io bound
2. Deepseek- MoE 部署  EP TP 部署优劣对比

评价:猜你没有看过vllm源码+对分布式了解还不够,然后也说了分布式需要资源,这也是实习的意义


二面:
1. 为什么会有KVcache?为什么没有Q cache?(正好以前研究时候手撕过,设想一个你好的prompt,模型也回答你好,关键地方在于对于同样一个token,kv embedding的时候是同样的结果)
2. Cuda除了gemm还做过哪些?(没有)
3. 学这些东西用了多久?(两个月。。答长了,怕觉得我,学了这么久还这么垃圾。答短了,怕觉得我,才学这么点时间,垃圾。当然,长还是短,看他咯)
4. 以后啥安排?会定居北京吗?(回答对象、父母安排,意向是留在北京,机会多些)提到租房,问我了解京东附近房价吗?(闲聊)
5. 叫我做好准备,工作强度不低,弱弱的问了一句时间,大概是10-8,还行吧,和学习的时间比起来这都还好。
6. 说我不够底层,确实吧,还得学啊,路漫漫其修远兮,吾将上下而求索

参考连接:
为什么加速LLM推断有KV Cache而没有Q Cache? - 莫叶何竹的回答 - 知乎
https://www.zhihu.com/question/653658936/answer/107469197025

Mooncake (1): 在月之暗面做月饼,Kimi 以 KVCache 为中心的分离式推理架构 - ZHANG Mingxing的文章 - 知乎
https://zhuanlan.zhihu.com/p/705754254

讲解的非常好,不是那么有基础的同学都可以试着了解一下【KTransformers 团队分享异构推理架构思路:基于内存的大模型推理成本优化】 https://www.bilibili.com/video/BV1VNQrYGEad/?share_source=copy_web&vd_source=0b7a45021acc545f42356bf3b2bb7080
全部评论
oc了吗
点赞 回复 分享
发布于 04-23 09:55 辽宁
点赞 回复 分享
发布于 04-18 11:27 香港

相关推荐

1. 项目背景:针对端侧设备(树莓派、昇腾、RK系列)的低资源环境,设计一套轻量化分布式框架,实现大模型(LLM/ASR/TTS等)的高效协同推理,解决端侧设备算力分散、通信受限、动态扩展难等问题。技术栈:Linux、C++、ZMQ、设计模式、分布式架构、主从Reactor模式、docker、cmake、shell3. 项目设计方案1. 双模式部署设计:设计Docker与裸机双部署方案,通过自动化镜像部署和容器操作脚本,环境部署效率提升70%2. 底层混合通信组件:- 设计基于ZMQ的多模式通信中间件,通过工厂模式统一创建PUB/SUB、PUSH/PULL、RPC等6种通信策略,结合策略模式实现动态通信方式切换,降低业务层网络代码复杂度70%;- 构建高可用RPC框架,支持方法动态注册与服务发现,通过设置双端超时控制与自动重连机制提高通信可靠性;- 设计ZMQ消息封装模块,开发轻量级序列化协议,采用长度前缀+紧凑存储结构设计实现多参数打包/解包3. channel模块设计:- 统一管理底层多模式通信中间件的ZMQ连接,支持动态URL绑定,信道注册- 设计观察者模式和闭包方案,实现网络层与业务逻辑的解耦- 通过动态work_id路由和连接池技术,实现多unit单元通信隔离- JSON协议设计,用于节点间/外部用户消息交互4. 分布式任务调度框架设计-与业务节点关系(继承)- 采用 Reactor模式,设计异步事件驱动的任务调度框架,通过eventpp实现毫秒级事件响应- 动态RPC服务注册,支持跨业务节点 setup/exit 等指令的远程调用- 统一管理 work_id-channel 连接池,对上层业务节点屏蔽底层通信复杂性- 提供标准化setup等虚函数接口,支持业务节点自定义任务处理逻辑5. unit-manager模块- 设计RPC服务注册,实现信道自动注册/释放,SQL处理;并解析 action 实现动态分发请求- 实现轻量化内存kv缓存数据库 存储 unit 元信息;并提供线程安全SQL查询接口,供节点动态通信- 设计多协议网关,实现TCP/ZMQ协议转换,支持外部用户-内部业务节点通信交互- 设计主从多Reactor TCP通信框架,实现压测10000+TCP并发连接6. Node业务层接口设计- TASK任务管理:实现单任务实例管理,模型加载/推理/流式输出回调机制等- 服务层控制:自定义实现setup等接口,对业务节点进行生命周期管理,实现节点间相互订阅
简历中的项目经历要怎么写
点赞 评论 收藏
分享
评论
4
44
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务