算法工程师-跨模态理解与视频生成处理（T-Star Lab）-阿里巴巴2027届实习生

薪资面议

人工智能

本科

卢先生 6分钟前在线

阿里巴巴集团·高级招聘经理

投递时间：2026年4月24日-2027年4月24日

岗位职责

如果你，渴望深入探索视频生成技术，开发文本到视频（T2V）基础模型的前沿技术，致力于提升生成视频的画质，真实性，一致性，以及视频生产的效率；如果你，热衷于AIGC驱动的视频增强与处理技术，专注于将通用大模型架构优化并迁移到垂直领域，推动下游应用性能的突破；如果你，专注于基于AIGC的可控性编辑，探索如何精准实现内容生成与修改，满足多样化的业务需求；如果你，对基于AIGC的人脸，人体生成编辑技术充满热情，致力于打造具有高度交互性和真实性的数字形象；如果你，期望在多模态视频理解领域取得突破，通过技术创新提升视频内容的理解与分析能力；如果你，期望与一群聪明、皮实、乐观、追求卓越的优秀伙伴并肩作战，共同开创音视频技术的新篇章；那还在等待什么，赶紧加入我们吧！岗位研究课题：【视频增强】基于文生视频（T2V）的跨模态高保真视频增强算法；【视频生成】聚焦跨模态可控视频生成与编辑，多模态指令驱动下视频合成，保持时序、主体身份一致性; 【人像美化】基于大模型的妆容迁移、脸型/体型智能编辑以及人脸/人体美化; 【跨模态理解】基于多模态大模型，处理视听协同感知、复杂语义一致性、崩坏识别、商品高光定位等high-level的音频、视频理解任务。

岗位要求

1.本科及以上学历，计算机科学、人工智能、电子与通信等相关专业；面向2026年11月及以后的海内外高校在校生； 2.精通Diffusion模型及相关技术，掌握T2V基础模型及相关技术原理，有图像/视频生成或处理相关经验； 3.具备卓越的工程实现能力，熟练掌握C/C++、Java、Python等至少一门编程语言； 4. 熟练掌握深度学习框架，如TensorFlow、PyTorch； 5.学习能力强，对新技术有敏锐的洞察力，对AIGC领域充满热情，善于独立思考并持续优化； 6. 良好的沟通能力和团队协作精神，乐于分享技术见解，善于与团队成员合作。【加分项】 1. 具有文本到视频（T2V）、AIGC内容编辑、多模态视频理解等相关领域的实习或项目经验； 2. 拥有百亿参数级别大模型训练经验，或具备超大规模数据集构建与管理经验； 3. 在计算机视觉和人工智能领域的国际顶级会议（CVPR, ICCV, ECCV, AAAI, NeurIPS等）或期刊（T-PAMI,T-IP等）发表论文，或在权威学术竞赛中获奖。

牛客安全提示：如发现虚假招聘、广告，或以任何名义索要证件、费用，或诱导异地入职、参与培训等均属违法行为，发现请立即举报

阿里巴巴集团

电商

不需要融资

杭州市

查看其他 506 个职位

0 笔试题目 4473 面试经验 2538 面试短评