吉利研究院校招

岗位职责:
1. 参与大模型在端侧设备的极致性能优化与部署落地。
2. 深入研究生成式多模态大模型的量化、算子优化、内核融合、图优化等关键技术,显著降低模型尺寸与推理延迟。
3. 深度挖掘并利用端侧AI硬件的算力潜力,包括但不限于:Hexagon DSP/NPU、MTK平台、CUDA平台
4. 构建和维护端侧模型自动化优化与部署 pipeline,包括模型转换、量化、编译、测试和性能分析。

职位要求
1、熟悉C/C++或Python编程语言。
2、熟悉并掌握主流模型压缩技术,如量化(GPTQ/AWQ/SmoothQuant/SpinQuant)、剪枝、蒸馏及NAS。
3、熟悉LLM推理框架(如vLLM、TensorRT-LLM、llama.cpp)及优化加速技术(如Speculative-Decoding、Flashattention)。
4、具备LLM推理优化和加速技术的实践经验。
5、拥有深入研究精神、创新能力及持续学习意愿。
满足以上2~5项任一要求即可

加分项:
1、熟悉GPU/NPU硬件架构。
2、有异构计算加速或芯片级性能调优经验。
3、集成、定制和优化主流推理/优化引擎(如TensorRT、ONNX Runtime、TVM、MLIR)及LLM专用框架(如vLLM、llama.cpp、TensorRT-LLM),使其更好地适配目标硬件。
4、研究和落地前沿推理加速技术,如推测解码(Speculative Decoding)、PagedAttention、FlashAttention等,以提升吞吐量和降低功耗。
具有以上任一项经验优先录用
全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务