多模态算法工程师(实习)

300-600元/天
算法工程师
杭州
硕士
5天/周
最少6个月
有转正
岗位关键词

投递时间:2026年4月8日-2028年5月8日

岗位职责
1、结合Omni架构将模型拓展为世界模型雏形,研发流式的Omni Real Time 交互模型 2、探索原生的多模态表征方法(Native Multimodal Representation) 3、探索多模态对齐(Audio-Language、Vision-Language、Video-Language)与跨模态表示学习 4、构建面向 Omni场景的多模态数据流水线和数据治理体系(文本、图像、音频、视频) 5、研究并实现多模态预训练、指令微调、对齐学习与RL 的各种PO训练策略 6、优化训练性能,提升训练效率与推理速度(包括KV缓存、量化、蒸馏等) 7、针对实际业务场景进行模型压缩、蒸馏、推理加速与端侧适配 8、提升在多模态问答、检索增强、多轮对话、Agent任务中的表现与鲁棒性 9、支持模型在多端产品落地(APP端、网页端、智能硬件等)
岗位要求
1、有多模态模型研发经验:VL、AL、AV、Video、Omni任一方向 2、熟练使用多模态开源模型,如 Qwen-omni、LLaVA、Whisper、Clap、MERT、SeamlessM4T 等 3、有大规模模型训练经验:SFT、DPO、RLHF、GRPO、MoE、长上下文训练 4、掌握音频/视频建模,例如ASR、TTS、音频编码、视频理解/生成 5、有模型推理优化经验:TensorRT、vLLM、FlashAttention、KV Cache、量化、稀疏化 6、有Agent系统、RAG、多模态增强检索、工具调用链构建经验 7、在顶会发表论文(NeurIPS/ICML/ICLR/CVPR/ACL/ICCV等)或大型开源项目贡献者优先
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报