首页 / 推理优化

#

推理优化

#

19540次浏览 288人互动

此刻你想和大家分享什么

热门最新

04-23 14:08

安徽大学深度学习

天数智芯推理优化社招二面

即将社招二面，线下面试。有人了前辈指点一二么？分享点经验

点赞评论收藏

分享

03-15 20:01

上海交通大学算法工程师

为什么大模型推理越来越快？聊聊 KV Cache

最近复盘了 KV Cache，给面试/实战一个好记版本：1）Decoder 生成第 k 个 token 时，历史 token 的 K/V 不必重算，缓存后直接复用；2）不做缓存会反复算历史注意力，长度一长延迟明显；3）KV Cache 省算力但吃显存，长上下文时显存压力会成为瓶颈；4）MHA→MQA→GQA→MLA，本质都在做“少缓存/更聪明缓存”，其中 GQA 是当前工程里很常见的平衡点。一句话：KV Cache 是速度的来源，注意力变体是显存账本。

查看4道真题和解析

点赞评论收藏

分享

2024-12-23 11:22

已编辑

门头沟学院 C++

CUDA算子手撕与面试

引言 最近秋招落幕，期间一直在找高性能计算（HPC）相关岗位，最终上岸某大厂推理引擎开发。面试期间比较难受的一点是HPC相关的面试资料太少，故自己在面试过程中陆续整理了一些CUDA算子手撕的代码和知识点，最后打包成一个开源项目分享给大家。 项目地址：https://github.com/Tongkaio/CUDA_Kernel_Samples 如果觉得本项目对你有帮助，欢迎给项目点个 ⭐ 哦 ~ 项目介绍 本项目是 CUDA 算子手撕与面试指南：  汇总了面试高频的 CUDA 算子题目和优化策略，包含面试高频算子的编写示例 项目从算子 naive 实现到优化版本均包含完整代码，便于调试与性能分...

点赞评论收藏

分享

03-14 21:01

上海交通大学算法工程师

投机采样：为什么能提速还不掉质？

最近复盘推理加速时，终于把投机采样（Speculative Sampling）想明白了：它不是“让小模型替代大模型”，而是“让小模型先起草，大模型集中验收”。我自己的理解是三步：1）小模型先连续给出K个token草稿；2）大模型一次前向并行校验这K个token；3）遇到不靠谱token就拒绝并重采样，保证最终分布仍对齐大模型。核心收益：把大模型“逐token串行调用”改成“批量验收”，吞吐会明显提升。核心底线：有拒绝采样兜底，不是盲目加速，所以质量不靠运气。如果你正在做推理优化，这条线很值得深挖：先看接受率，再看K值和草稿模型大小的平衡点。

点赞评论收藏

分享

不愿透露姓名的神秘牛友

2025-02-10 21:59

已编辑

AI Infra还是搜广推

投票

如题，要准备投暑期实习了开始焦虑hhhbg双九科班，实验室是体系结构方向，AI Infra和搜广推都有过大厂实习没想好就业选什么方向，AI Infra的hc太少，搜广推又似乎瓶颈了

顺利毕业的鸽子：其实都挺好，不过个人感觉ai明年会比搜广推卷

点赞评论收藏

分享

2025-12-15 15:14

门头沟学院 C++

27 ai infra方向找实习求捞

ai infra推理加速/推理框架方向找实习求捞，之前有一段大厂对口实习经历

已注销：拼多多记得这个方向不错吧

点赞评论收藏

分享

2025-10-26 11:19

已编辑

北京交通大学深度学习

小红书 AI Infra 简历直达！

Who We Are小红书智创团队负责用户发布工具、增长&商业化等多个重要业务场景里的创作能力支持。团队规模不大，但氛围很好，靠近业务的同时也看重技术成长。What We Do1. 负责建设多模型&多模态的在线服务框架和生态，对推理引擎(vllm/sglang)二次开发，支撑创作发布/内容理解/商业化等实际业务场景。2. 针对Diffusion、VLM等大模型深度优化训练框架，支持大规模高效&稳定训练。补充：- Base 北京、上海- 薪资待遇可观 - 简历可直达LD，推荐或自荐欢迎带上简历先滴滴我~

点赞评论收藏

分享

2025-02-24 16:17

上海交通大学前端工程师

大模型公司招人啦

我们是谁 成立于2021年12月，MiniMax是通用人工智能时代基础设施建设者和内容应用创造者。作为国内唯一一家拥有文本、语音、视觉多种模态融合的通用大模型引擎能力并打通产品全链路的科技创业公司，团队致力于用领先的通用人工智能（AGI）引擎技术，通过多场景和多维度应用及交互，推动通用人工智能技术新范式变革，重塑人工智能商业模式。以技术和产品为核心驱动力，MiniMax自研了整套端到端AGI引擎系统。核心技术研发成员均来自全球知名高校和全球顶尖科技公司，拥有世界顶尖自然语言处理，语音，计算机视觉，计算机图形学等工业界和学术界经验，拥有多项全球领先的人工智能领域研究成果，具有上百个全球发明专利，1/3 的团队成员拥有世界顶尖技术实验室的博士学位，团队核心成员皆亲历了海内外人工智能 1.0 时代的发展变化，对全球人工智能行业有着深刻的理解。以“和用户共同创造通用智能 Intelligence with Everyone”为使命，依托出色的技术研发实力和产品运营能力，MiniMax由全球顶级投资机构背书，获多轮融资，是大模型领域不断迭代、快速增长的独角兽企业🦄️无工作年限要求，欢迎超优秀应届毕业生和希望认真打磨技术的高潜力在校生以及技术大牛MiniMax社招内推码: 4QMYV1Q投递链接: https://vrfi1sk8a0.jobs.feishu.cn/s/iPfE3ad5- 极具竞争力的薪资- 五险二金- 商业保险- 每个月一天额外带薪福利假- 弹性上下班不打卡- 房补餐补，生日等福利多多欢迎大家投递

点赞评论收藏

分享

03-10 14:02

上海交通大学算法工程师

一次看懂投机采样：为什么能“提速不降质”？

今天复盘了 Speculative Sampling（投机采样），给自己记3个关键点：1）先用小模型连续起草 K 个 token，再让大模型一次并行校验；2）接受概率用 min(1, q/p)，错的 token 直接拒绝并重采样；3）所以它不是“赌运气加速”，而是“在保证目标分布不变前提下提速”。直觉上就是：把大模型最贵的调用次数降下来，但不牺牲正确性。面试里如果被问“为什么投机采样不影响质量”，核心就一句：👉 接受-拒绝步骤保证最终样本仍来自目标模型分布。

点赞评论收藏

分享

2025-12-30 17:33

谦合益邦_编译器与算子开发工程师

招AI图编译器开发工程师！

职位名称：图编译器开发工程师工作地点：杭州职位描述：我们正在寻找一位对深度学习编译器和 AI 加速器有深刻理解的图编译器开发与优化工程师。你将负责构建和优化从 PyTorch 到自研 NPU 的端到端图编译流程，确保模型在转换后精度无损、性能卓越、资源高效。工作涵盖前端图提取、中间表示（IR）优化、NPU 算子映射、量化支持、图调度及性能调优，是连接算法模型与底层硬件的关键桥梁。主要职责：1.设计并实现从 PyTorch（含 Dynamo/TorchScript）到内部 IR 的高保真图提取与转换流程；2.开发面向 NPU 架构的图级优化策略（如算子融合、内存复用、常量折叠、布局转换等）；3.实现 NPU 原生算子的注册、匹配与替换机制，确保语义等价与数值精度一致；4.支持 FP16/BF16/FP8/FP4等混合精度推理，保障量化前后模型精度对齐；5.与 NPU 算子团队协作，定义高效算子接口，推动图-算子协同优化；6.构建自动化测试框架，覆盖图转换正确性、数值精度、性能回归等维度；7.针对大语言模型（LLM）、视觉模型等典型 workload 进行端到端编译 pipeline 优化。任职要求：必备条件：1.计算机科学、电子工程或相关专业硕士及以上学历；2.精通 C++ 和 Python，具备扎实的系统软件开发能力；3.深入理解深度学习计算图、执行调度等核心概念；4.有 PyTorch 图捕获（如 TorchDynamo）相关开发经验；5.熟悉主流深度学习编译器框架（如 TVM、MLIR）；6.具备模型精度调试与数值一致性验证经验（如使用 torch.allclose、逐层比对等）；7.了解 NPU/GPU 等 AI 加速器的基本架构与执行模型。加分项：1.有从 PyTorch 到专用硬件（如 NPU、TPU）的完整编译部署经验；2.熟悉 MLIR 方言设计、Pass 开发及 Lowering 流程；3.参与过大模型（如 Llama、Qwen、Stable Diffusion）的编译或部署优化；4.了解量化感知训练（QAT）或后训练量化（PTQ）流程；5.在 MLSys、OSDI、ASPLOS、NeurIPS Systems Track 等会议发表过相关成果。不光是图编译哦，有其他岗位的也可以联系我！

点赞评论收藏

分享

2025-12-30 17:38

谦合益邦_编译器与算子开发工程师

招算子开发和优化工程师！

职位名称：算子开发和优化工程师工作地点：杭州职位描述：我们正在寻找经验丰富的 NPU 算子开发工程师。你将负责面向自研 NPU 架构的深度学习算子开发、性能调优、算子编译器设计与实现，并参与大模型在 NPU 平台上的部署与调试工作。该岗位对底层硬件理解、编译器技术及深度学习框架有较高要求，是连接算法、软件与硬件的关键角色。主要职责：1.设计、开发和优化面向 NPU 的高性能深度学习算子（如 Conv、MatMul、Attention、LayerNorm 等）；2.参与 NPU 专用算子编译器（如基于 MLIR/TVM）的开发与维护；3.针对大语言模型（LLM）或视觉大模型，在 NPU 上进行端到端部署、性能分析与瓶颈优化；4.与芯片架构师、驱动团队及算法团队紧密协作，确保算子在硬件上的高效执行；5.编写自动化测试用例，保障算子功能正确性与性能稳定性；6.跟踪业界最新 NPU 架构、编译器技术和大模型推理优化方法，持续提升平台能力。任职要求：必备条件：1.计算机科学、电子工程、自动化或相关专业硕士及以上学历；2.精通 C/C++ 编程，熟悉 Python，具备扎实的系统编程和调试能力；3.深入理解深度学习基础算子及其数学原理，有实际算子开发或优化经验；4.熟悉至少一种主流深度学习框架（如 PyTorch、TensorFlow）及其底层执行机制；5.具备 GPU/NPU/TPU 等 AI 加速器上的性能调优经验；加分项：1.了解编译器基本原理，有 LLVM、MLIR、TVM、XLA 等相关项目经验。2.有自研 NPU 或 AI 芯片公司工作经验；3.参与过大模型（如 Llama、Qwen、Stable Diffusion 等）在边缘或端侧设备的部署；4.熟悉 CUDA/OpenCL/HIP 或 NPU 专用指令集、内存层次结构；5.在顶级会议（如 ASPLOS、OSDI、MLSys、NeurIPS、ICLR）发表过相关论文。

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务