语音多模态-阿里星-阿里巴巴2027届实习生
薪资面议
语音识别 杭州 本科

投递时间:2026年4月24日-2027年4月24日
岗位职责
如果你,期望在阿里巴巴亿级用户生态中,定义下一代数字人的“灵魂”与“听觉”,打造具备极致情感表现力和深度理解能力的智能语音交互系统;
如果你,期望探索高表现力语音合成的前沿,突破传统韵律限制,研发支持零样本音色克隆、多情感/多方言实时切换的语音生成技术,让数字人的声音不再冷冰冰,而是拥有细腻的情绪起伏和呼吸感;
如果你,期望攻克语音多模态理解的核心挑战,不再局限于单一的文本转译,而是通过语音大模型直接从原始音频中建模情感、意图、环境与语气,实现对用户深层次语义和情绪的精准捕捉;
如果你,期望挑战1v1全双工实时对话的技术难题,研发低延迟的端到端语音到语音生成架构,攻克打断机制、交互反馈等难题,让数字人具备如同真人般自然、流畅的对答体验;
如果你,期望深入研究多模态对齐与融合,将语音特征与视觉表情、文本语义深度绑定,构建“音-意-形”高度统一的数字人交互大脑,解决业界在复杂对话环境下理解不准、响应过慢的技术痛点。
加入我们,你的算法将赋能AI智能导购、虚拟主播等核心场景。让我们一起用语音连接智能,开启数字人交互的新纪元!
研究背景:目前的数字人交互大多是“对讲机”模式(用户说完 -> 系统处理 -> 系统回答),存在明显的延迟和僵硬感。要实现真正的1v1自然对话,需要数字人具备实时监听、情感对齐和即时反馈的能力。
研究课题:
1、流式情感感知: 研究如何在用户说话过程中,实时通过流式音频提取情绪、语气和意图,而非等待整句话结束。
2、打断(Barge-in)与反馈机制: 研发鲁棒的打断检测算法,并让数字人学会自发性口语,提升交互真实感。
3、预测性生成: 探索如何根据用户已说出的前半句内容,提前初始化 TTS 渲染状态,实现“边听边想边说”的流式效果。
成长支持&成长空间:
1、亲手参与从 0 到 1 定义数字人实时交互标准,体验技术改变数亿人购物方式的成就感。
2、算力自由: 远离“算力焦虑”,专注于算法创新。
3、海量高质数据: 拥有业界独有的、极其丰富的多模态商业场景数据,为研究零样本学习、多模态对齐等前沿课题提供土壤。
4、鼓励顶会产出: 团队在保持业务领先的同时,高度重视学术沉淀。鼓励将研究成果总结并发表至ICASSP、NeurIPS 等顶会,支持参加国际学术会议,提升行业影响力。
岗位要求
1、计算机、信号处理、人工智能、语言学等相关专业,毕业时间在2026年11月以后的硕士及以上学历在校生;
2、熟悉常见的TTS架构,对韵律建模、音色克隆、情感控制有深刻理解;
3、熟悉主流 ASR 架构及语义理解算法,有 Speech-LLM研发背景;
4、熟悉 VAD、音频降噪、回声消除等前端技术,对全双工交互、流式语音处理有实践经验;
5、具备良好的工程与架构能力: 精通 Python 编程及 PyTorch / TensorFlow 框架,具备优秀的算法实现能力,能够复现顶尖会议(ICASSP, InterSpeech, NeurIPS 等)的最新研究成果;
6、具备前沿视野: 关注 Large Audio Models 或 Speech-to-Speech 的最新进展,对构建多模态统一大模型有强烈兴趣和独特见解。
牛客安全提示:如发现虚假招聘、广告,或以任何名义索要证件、费用,或诱导异地入职、参与培训等均属违法行为,发现请
立即举报