首页 / 推理优化
#

推理优化

#
14175次浏览 260人互动
此刻你想和大家分享什么
热门 最新
2025-12-15 15:14
门头沟学院 C++
27 ai infra方向找实习求捞
文化小流氓:拼多多记得这个方向不错吧
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
2025-02-10 21:59
已编辑
点赞 评论 收藏
分享
招AI图编译器开发工程师!
职位名称:图编译器开发工程师工作地点:杭州职位描述:我们正在寻找一位对深度学习编译器和 AI 加速器有深刻理解的图编译器开发与优化工程师。你将负责构建和优化从 PyTorch 到自研 NPU 的端到端图编译流程,确保模型在转换后精度无损、性能卓越、资源高效。工作涵盖前端图提取、中间表示(IR)优化、NPU 算子映射、量化支持、图调度及性能调优,是连接算法模型与底层硬件的关键桥梁。主要职责:1.设计并实现从 PyTorch(含 Dynamo/TorchScript)到内部 IR 的高保真图提取与转换流程;2.开发面向 NPU 架构的图级优化策略(如算子融合、内存复用、常量折叠、布局转换等);3.实现 NPU 原生算子的注册、匹配与替换机制,确保语义等价与数值精度一致;4.支持 FP16/BF16/FP8/FP4等混合精度推理,保障量化前后模型精度对齐;5.与 NPU 算子团队协作,定义高效算子接口,推动图-算子协同优化;6.构建自动化测试框架,覆盖图转换正确性、数值精度、性能回归等维度;7.针对大语言模型(LLM)、视觉模型等典型 workload 进行端到端编译 pipeline 优化。任职要求:必备条件:1.计算机科学、电子工程或相关专业硕士及以上学历;2.精通 C++ 和 Python,具备扎实的系统软件开发能力;3.深入理解深度学习计算图、执行调度等核心概念;4.有 PyTorch 图捕获(如 TorchDynamo)相关开发经验;5.熟悉主流深度学习编译器框架(如 TVM、MLIR);6.具备模型精度调试与数值一致性验证经验(如使用 torch.allclose、逐层比对等);7.了解 NPU/GPU 等 AI 加速器的基本架构与执行模型。加分项:1.有从 PyTorch 到专用硬件(如 NPU、TPU)的完整编译部署经验;2.熟悉 MLIR 方言设计、Pass 开发及 Lowering 流程;3.参与过大模型(如 Llama、Qwen、Stable Diffusion)的编译或部署优化;4.了解量化感知训练(QAT)或后训练量化(PTQ)流程;5.在 MLSys、OSDI、ASPLOS、NeurIPS Systems Track 等会议发表过相关成果。不光是图编译哦,有其他岗位的也可以联系我!
点赞 评论 收藏
分享
大模型公司招人啦
我们是谁 成立于2021年12月,MiniMax是通用人工智能时代基础设施建设者和内容应用创造者。作为国内唯一一家拥有文本、语音、视觉多种模态融合的通用大模型引擎能力并打通产品全链路的科技创业公司,团队致力于用领先的通用人工智能(AGI)引擎技术,通过多场景和多维度应用及交互,推动通用人工智能技术新范式变革,重塑人工智能商业模式。以技术和产品为核心驱动力,MiniMax自研了整套端到端AGI引擎系统。核心技术研发成员均来自全球知名高校和全球顶尖科技公司,拥有世界顶尖自然语言处理,语音,计算机视觉,计算机图形学等工业界和学术界经验,拥有多项全球领先的人工智能领域研究成果,具有上百个全球发明专利,1/3 的团队成员拥有世界顶尖技术实验室的博士学位,团队核心成员皆亲历了海内外人工智能 1.0 时代的发展变化,对全球人工智能行业有着深刻的理解。以“和用户共同创造通用智能 Intelligence with Everyone”为使命,依托出色的技术研发实力和产品运营能力,MiniMax由全球顶级投资机构背书,获多轮融资,是大模型领域不断迭代、快速增长的独角兽企业🦄️无工作年限要求,欢迎超优秀应届毕业生和希望认真打磨技术的高潜力在校生以及技术大牛MiniMax社招内推码: 4QMYV1Q投递链接: https://vrfi1sk8a0.jobs.feishu.cn/s/iPfE3ad5- 极具竞争力的薪资- 五险二金- 商业保险- 每个月一天额外带薪福利假- 弹性上下班不打卡- 房补餐补,生日等福利多多欢迎大家投递
点赞 评论 收藏
分享
招算子开发和优化工程师!
职位名称:算子开发和优化工程师工作地点:杭州职位描述:我们正在寻找经验丰富的 NPU 算子开发工程师。你将负责面向自研 NPU 架构的深度学习算子开发、性能调优、算子编译器设计与实现,并参与大模型在 NPU 平台上的部署与调试工作。该岗位对底层硬件理解、编译器技术及深度学习框架有较高要求,是连接算法、软件与硬件的关键角色。主要职责:1.设计、开发和优化面向 NPU 的高性能深度学习算子(如 Conv、MatMul、Attention、LayerNorm 等);2.参与 NPU 专用算子编译器(如基于 MLIR/TVM)的开发与维护;3.针对大语言模型(LLM)或视觉大模型,在 NPU 上进行端到端部署、性能分析与瓶颈优化;4.与芯片架构师、驱动团队及算法团队紧密协作,确保算子在硬件上的高效执行;5.编写自动化测试用例,保障算子功能正确性与性能稳定性;6.跟踪业界最新 NPU 架构、编译器技术和大模型推理优化方法,持续提升平台能力。任职要求:必备条件:1.计算机科学、电子工程、自动化或相关专业硕士及以上学历;2.精通 C/C++ 编程,熟悉 Python,具备扎实的系统编程和调试能力;3.深入理解深度学习基础算子及其数学原理,有实际算子开发或优化经验;4.熟悉至少一种主流深度学习框架(如 PyTorch、TensorFlow)及其底层执行机制;5.具备 GPU/NPU/TPU 等 AI 加速器上的性能调优经验;加分项:1.了解编译器基本原理,有 LLVM、MLIR、TVM、XLA 等相关项目经验。2.有自研 NPU 或 AI 芯片公司工作经验;3.参与过大模型(如 Llama、Qwen、Stable Diffusion 等)在边缘或端侧设备的部署;4.熟悉 CUDA/OpenCL/HIP 或 NPU 专用指令集、内存层次结构;5.在顶级会议(如 ASPLOS、OSDI、MLSys、NeurIPS、ICLR)发表过相关论文。
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务