推理部署优化/高性能开发 春招总结-1

腾讯
    一面
        1. Tensorrt-LLM, AGI , VLLM源代码区别
        2. 为什么要有continue batch
        3. fastllm.cpp 的源代码
        4. yolo加速
        5. Python 计算密集型使用多进程还是多线程
        6. C++继承怎么实现的
        7. 最大子数组之和
    二面
        1. 求比特位中1个个数
        2. 编译时运行
        3. VLLM ,PageAttention
        4. Cuda 内存模型介绍
        5. 使用triton 实现 PageAttention
    二面挂#金三银四,你有感觉到吗#
#春招提前批,你开始投了吗#
全部评论
佬,面的啥部门呀
2 回复 分享
发布于 2024-04-02 00:17 广东
大佬自学吗还是课题组方向
1 回复 分享
发布于 2024-04-28 08:48 黑龙江
请问应该投什么岗位呢这个方向
1 回复 分享
发布于 2024-04-13 20:00 浙江
面得这么恐怖吗
点赞 回复 分享
发布于 2024-09-22 20:53 浙江
mark
点赞 回复 分享
发布于 2024-06-20 00:20 湖北
大佬,这个岗位投递名字是啥啊
点赞 回复 分享
发布于 2024-06-02 15:36 湖北
mark
点赞 回复 分享
发布于 2024-05-07 21:13 湖南
mark
点赞 回复 分享
发布于 2024-05-07 21:13 湖南
mark
点赞 回复 分享
发布于 2024-04-15 21:56 湖北
佬,triton实现pagedattention是手撕吗
点赞 回复 分享
发布于 2024-04-04 14:12 广东

相关推荐

1、底层通信组件方案通信模式封装支持兼容多种通信模式普通消息模式:PUB/SUB(发布订阅)、PUSH/PULL(点对点通信)RPC 模式:通过ZMQ_REP、ZMQ_REQ 封装 RPC 功能RPC功能支持 RPC 方法的动态注册提供默认的 RPC 方法列表查询支持 RPC 调用2、Master模块(实现思路:类似ROS1 Master功能, 更轻量化)背景:分布式大模型系统中,多个节点(如llm/vlm, asr,tts, camera,yolo)需要动态发现彼此并高效通信,外部用户可以动态管理节点内任务调度​​节点注册与发现​实现轻量化内存kv缓存数据库:存储节点元信息;并提高sql查询接口,供节点动态通信节点启动时向Master模块注册,上报自身元信息;节点通信时自动匹配动态任务调度分配设计用户请求-任务匹配机制:外部用户仅封装简易数据包请求,可实现动态控制各个模块(启停/llm推理等)3、Channel模块封装上层发布-订阅(PUB/SUB)和点对点通信(PUSH/PULL)混合通信模式设计闭包,通过闭包将​​网络层​​(ZeroMQ)与​​业务层​​(用户回调)解耦,同时隐式维护了通信上下文状态。4、Infra基础架构模块rpc分布式控制指令下发+异步​事件驱动架构​​注册rpc_setup/rpc_pause等分布式控制接口->注册eventpp事件监听->上层触发rpc调用 -> 添加eventpp事件队列中-> 异步事件驱动->各子类Setup/Pause等功能接口标准化控制协议​​基于抽象接口(Setup/Pause等)实现跨模块统一管控,支持LLM/ASR/TTS等异构节点无缝集成5、TASK模块与Infra模块关系:类似与进程和线程之间关系,Infra模块负责资源分配和流程管控,TASK模块是真正干活的,干的活如下:各模块中模型生命周期管理(加载/卸载)infra推理包装回调输出等等          
点赞 评论 收藏
分享
评论
7
91
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务