AIGC数字人视频生成-阿里星-阿里巴巴2027届实习生
薪资面议
人工智能 北京 本科

投递时间:2026年4月24日-2027年4月24日
岗位职责
如果你,期望在阿里巴巴生态的广阔场景中,借助海量用户数据和先进的技术能力,打造千人千面的个性化数字人形象生产系统,为亿级用户提供高度定制化的虚拟形象服务;
如果你,期望攻克高保真语音驱动(Speech-to-Video)的核心难题,研发业界领先的唇形同步、情绪化面部表情及肢体动作生成算法,实现从音频到视频的端到端极致还原,赋予数字人如同真人般的自然表达力与情感共鸣;
如果你,期望挑战实时流式生成的技术难题,探索扩散模型与自回归模型的极速推理优化,实现低延迟、高吞吐的视频流实时产出,打破离线渲染的局限,支撑起百万级并发的实时交互直播场景;
如果你,期望突破数字人与物理世界的边界,深耕复杂物体交互(Human-Object Interaction)技术,解决数字人在手持商品、展示道具等动态交互过程中的物理规律约束、空间一致性及遮挡还原难题,让数字人在导购、演播等场景中具备真实的物体操控能力;
如果你,期望深入探索多模态统一大模型的应用,将视觉、语音、文本与动作序列深度融合,构建具备精细环境感知与逻辑理解能力的数字人系统,在复杂的电商实景中实现人-物-场的高度协同与自然对答。
加入我们,你的成果将直接应用于电商领域的核心场景——AI实时直播、智能客服、交互式数字导购,影响数以亿计的用户。在这里,你不仅是在写代码,更是在通过流式架构与交互算法,重新定义未来数字人的无限可能!
研究背景:在 AIGC 浪潮下,数字人已从早期的录像进化为动态实时生成。然而,业界仍面临三大核心挑战:
交互的自然度: 如何让数字人的肢体、表情与复杂的语音情感高度对齐,消除“恐怖谷”效应。
物理规律的缺失: 在电商直播等场景中,数字人需要手持商品、展示道具,如何解决手部交互(HOI)中的遮挡、形变及空间一致性是当前的技术深水区。
实时性的瓶颈: 扩散模型效果虽好但推理慢,如何实现低延迟的流式视频生成,是数字人从视频工具走向实时互动的必经之路。
研究课题:
基于扩散模型的高保真流式视频生成架构研究;
复杂场景下的人与物体交互(HOI)视频生成;
多模态情感驱动的全身动作与表情协同生成;
成长资源:
1、算力自由: 远离“算力焦虑”,专注于算法创新。
2、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为视频生成、HOI等前沿课题提供土壤。
3、鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至CVPR、SIGGRAP、HNeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。
4、工业界顶级专家的 1v1 指导: 团队由来自国内外顶尖院校的博士和工业界资深专家组成,实行“师兄制”,从学术论文投稿到工程落地全过程深度带教。
岗位要求
1、计算机/电子/人工智能/多媒体技术等相关专业,毕业时间在2026年11月以后得硕士及以上学历在校生;
2、 熟悉视频时序一致性处理、长视频生成、动作迁移或视频补全等技术;
3、精通 Python,熟悉 PyTorch / TensorFlow 等至少一种主流深度学习框架;
4、具备良好的代码习惯,能高效实现前沿论文算法,并进行复现与改进。
加分项
1、在相关领域国际会议发表有影响力的一作CCF-A论文;
2、作为主要参与者参与有业界影响力的技术工作。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报