视觉多模态算法工程师
300-500元/天
人工智能 杭州 硕士 5天/周 最少3个月

岗位关键词
岗位职责
参与视频内容的多模态理解技术研发,包括但不限于:视频分类、动作识别、跨模态检索(视频-文本/音频)、视频摘要生成等。
探索多模态大模型(如视频理解、LLM与视觉结合)在手机影像、智能推荐、用户交互等场景的应用。
优化算法模型在移动端的部署效率,结合vivo终端设备特性(如计算摄影、AI芯片)进行轻量化改进。
跟踪学术界与工业界前沿技术(如Transformer、Diffusion Models、多模态预训练),推动技术落地。
岗位要求
教育背景:计算机科学、人工智能、电子工程等相关专业硕士或博士在读,2025届及以后毕业生优先。
技术能力:
扎实的编程基础(Python/C++),熟悉PyTorch/TensorFlow等深度学习框架。
熟悉计算机视觉(CNN/Transformer)或多模态技术(CLIP、VideoMAE、Whisper等)。
有视频理解、跨模态对齐、时序建模等相关项目或论文经验者优先。
加分项:
熟悉大模型技术(LLM、多模态大模型)或移动端AI部署(ONNX、TensorRT)。
在顶级会议(CVPR/ICCV/ACL/MM等)发表过相关论文,或Kaggle/天池等比赛获奖。
个人特质:逻辑清晰,对AI技术落地有热情,具备良好的团队协作能力。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报