岗位职责: 1. 参与大模型在端侧设备的极致性能优化与部署落地。2. 深入研究生成式多模态大模型的量化、算子优化、内核融合、图优化等关键技术,显著降低模型尺寸与推理延迟。3. 深度挖掘并利用端侧AI硬件的算力潜力,包括但不限于:Hexagon DSP/NPU、MTK平台、CUDA平台4. 构建和维护端侧模型自动化优化与部署 pipeline,包括模型转换、量化、编译、测试和性能分析。职位要求1、熟悉C/C++或Python编程语言。2、熟悉并掌握主流模型压缩技术,如量化(GPTQ/AWQ/SmoothQuant/SpinQuant)、剪枝、蒸馏及NAS。3、熟悉LLM推理框架(如vLLM、TensorRT-LLM、llama.cpp)及优化加速技术(如Speculative-Decoding、Flashattention)。4、具备LLM推理优化和加速技术的实践经验。5、拥有深入研究精神、创新能力及持续学习意愿。满足以上2~5项任一要求即可加分项:1、熟悉GPU/NPU硬件架构。2、有异构计算加速或芯片级性能调优经验。3、集成、定制和优化主流推理/优化引擎(如TensorRT、ONNX Runtime、TVM、MLIR)及LLM专用框架(如vLLM、llama.cpp、TensorRT-LLM),使其更好地适配目标硬件。4、研究和落地前沿推理加速技术,如推测解码(Speculative Decoding)、PagedAttention、FlashAttention等,以提升吞吐量和降低功耗。具有以上任一项经验优先录用