算法工程师-跨模态理解与视频生成处理(T-Star Lab)-阿里巴巴2027届实习生

薪资面议
人工智能
杭州
本科

投递时间:2026年4月24日-2027年4月24日

岗位职责
如果你,渴望深入探索视频生成技术,开发文本到视频(T2V)基础模型的前沿技术,致力于提升生成视频的画质,真实性,一致性,以及视频生产的效率; 如果你,热衷于AIGC驱动的视频增强与处理技术,专注于将通用大模型架构优化并迁移到垂直领域,推动下游应用性能的突破; 如果你,专注于基于AIGC的可控性编辑,探索如何精准实现内容生成与修改,满足多样化的业务需求; 如果你,对基于AIGC的人脸,人体生成编辑技术充满热情,致力于打造具有高度交互性和真实性的数字形象; 如果你,期望在多模态视频理解领域取得突破,通过技术创新提升视频内容的理解与分析能力; 如果你,期望与一群聪明、皮实、乐观、追求卓越的优秀伙伴并肩作战,共同开创音视频技术的新篇章; 那还在等待什么,赶紧加入我们吧! 岗位研究课题: 【视频增强】基于文生视频(T2V)的跨模态高保真视频增强算法; 【视频生成】聚焦跨模态可控视频生成与编辑,多模态指令驱动下视频合成,保持时序、主体身份一致性; 【人像美化】基于大模型的妆容迁移、脸型/体型智能编辑以及人脸/人体美化; 【跨模态理解】基于多模态大模型,处理视听协同感知、复杂语义一致性、崩坏识别、商品高光定位等high-level的音频、视频理解任务。
岗位要求
1.本科及以上学历,计算机科学、人工智能、电子与通信等相关专业;面向2026年11月及以后的海内外高校在校生; 2.精通Diffusion模型及相关技术,掌握T2V基础模型及相关技术原理,有图像/视频生成或处理相关经验; 3.具备卓越的工程实现能力,熟练掌握C/C++、Java、Python等至少一门编程语言; 4. 熟练掌握深度学习框架,如TensorFlow、PyTorch; 5.学习能力强,对新技术有敏锐的洞察力,对AIGC领域充满热情,善于独立思考并持续优化; 6. 良好的沟通能力和团队协作精神,乐于分享技术见解,善于与团队成员合作。 【加分项】 1. 具有文本到视频(T2V)、AIGC内容编辑、多模态视频理解等相关领域的实习或项目经验; 2. 拥有百亿参数级别大模型训练经验,或具备超大规模数据集构建与管理经验; 3. 在计算机视觉和人工智能领域的国际顶级会议(CVPR, ICCV, ECCV, AAAI, NeurIPS等)或期刊(T-PAMI,T-IP等)发表论文,或在权威学术竞赛中获奖。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请 立即举报
阿里巴巴集团
电商
不需要融资
杭州市
查看其他 506 个职位