岗位职责
1、结合Omni架构将模型拓展为世界模型雏形,研发流式的Omni Real Time 交互模型
2、探索原生的多模态表征方法(Native Multimodal Representation)
3、探索多模态对齐(Audio-Language、Vision-Language、Video-Language)与跨模态表示学习
4、构建面向 Omni场景的多模态数据流水线和数据治理体系(文本、图像、音频、视频)
5、研究并实现多模态预训练、指令微调、对齐学习与RL 的各种PO训练策略
6、优化训练性能,提升训练效率与推理速度(包括KV缓存、量化、蒸馏等)
7、针对实际业务场景进行模型压缩、蒸馏、推理加速与端侧适配
8、提升在多模态问答、检索增强、多轮对话、Agent任务中的表现与鲁棒性
9、支持模型在多端产品落地(APP端、网页端、智能硬件等)
岗位要求
1、有多模态模型研发经验:VL、AL、AV、Video、Omni任一方向
2、熟练使用多模态开源模型,如 Qwen-omni、LLaVA、Whisper、Clap、MERT、SeamlessM4T 等
3、有大规模模型训练经验:SFT、DPO、RLHF、GRPO、MoE、长上下文训练
4、掌握音频/视频建模,例如ASR、TTS、音频编码、视频理解/生成
5、有模型推理优化经验:TensorRT、vLLM、FlashAttention、KV Cache、量化、稀疏化
6、有Agent系统、RAG、多模态增强检索、工具调用链构建经验
7、在顶会发表论文(NeurIPS/ICML/ICLR/CVPR/ACL/ICCV等)或大型开源项目贡献者优先