视觉多模态算法工程师

300-500元/天
人工智能
杭州
硕士
5天/周
最少3个月
岗位关键词
岗位职责
参与视频内容的多模态理解技术研发,包括但不限于:视频分类、动作识别、跨模态检索(视频-文本/音频)、视频摘要生成等。 探索多模态大模型(如视频理解、LLM与视觉结合)在手机影像、智能推荐、用户交互等场景的应用。 优化算法模型在移动端的部署效率,结合vivo终端设备特性(如计算摄影、AI芯片)进行轻量化改进。 跟踪学术界与工业界前沿技术(如Transformer、Diffusion Models、多模态预训练),推动技术落地。
岗位要求
教育背景:计算机科学、人工智能、电子工程等相关专业硕士或博士在读,2025届及以后毕业生优先。 技术能力: 扎实的编程基础(Python/C++),熟悉PyTorch/TensorFlow等深度学习框架。 熟悉计算机视觉(CNN/Transformer)或多模态技术(CLIP、VideoMAE、Whisper等)。 有视频理解、跨模态对齐、时序建模等相关项目或论文经验者优先。 加分项: 熟悉大模型技术(LLM、多模态大模型)或移动端AI部署(ONNX、TensorRT)。 在顶级会议(CVPR/ICCV/ACL/MM等)发表过相关论文,或Kaggle/天池等比赛获奖。 个人特质:逻辑清晰,对AI技术落地有热情,具备良好的团队协作能力。
奥克斯创智一号
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
vivo
硬件
未融资
东莞/北京/深圳/上海/南京/杭州/西安
查看其他 27 个职位