音频算法实习面经

我硕士期间的研究方向应该来说偏音乐计算吧,简历里面的两个项目都和音乐比较相关,一个是人声的,一个是乐器的。从我个人的面试经历来看,面试问题基本都是围绕简历开展的。可能我的简历内容比较多,面试官想了解下。基本没有出现那种脱离简历的问题,可能最重要的经验就是一定要好好准备简历项目、搞清楚每个项目的重难点、里面每个步骤的原理,细节,选择A模型而不是B模型的理由等等这些。同时,面试过程一方面是向面试官展示自己,另一方面其实也是和面试官的沟通交流。谦虚自信大方地介绍清楚自己以及自己的项目,基本就没问题。

已拿offer

字节飞书-实时音视频算法

base深圳,发录用函,接了也准备去实习了。

字节的音视频算法还是招的很多的,毕竟字节那么多app基本都和音视频有关。不过我面试的是实时音视频岗位,比较偏向音频3a和编解码方向,非常注重实时性,同时也是工程业务导向的,不太做研究,一般也不采用深度学习之类的方法。如果想做偏研究方向的建议考虑字节AI lab智创语音团队。

一面:

问了一下我的简历中的项目,基本没有什么卡壳的地方。因为面试官之前和智创语音团队的成员共事过,而且我的简历的一个研究之前智创语音团队也做过,所以比较好奇他们的和我的有什么区别吧。另一个就是面试官有时候可能不理解自己简历里的一些概念,要尝试用面试官理解的概念来解释。比如当时面试官不太懂NW算法,解释这算法和DTW比较类似,只是递推公式稍有差异。同时面试官也指出目前也有些对齐算法可以做到端到端,比如softDTW之类的。这个我确实不懂,表示下来将看看学习下。不过后来查询了下,我的项目里的对齐必须要硬对齐,因此softDTW之类的软对齐方法我还是用不了的。

同时面试官也重复说了下他们的方向,是rtc中的音频3a和编解码这些,可能是担心我和他们不是很匹配吧。

手撕代码:使用numpy实现卷积

二面:

二面面试官感觉年龄明显比一面面试官大,估计是团队的leader。二面基本也是问简历,可能是把一面之后自己不太理解的一些问题再问一遍吧。同时二面面试官几次重复问了下我是否知道他们是做什么的,可能是怕我不知道他们更偏向3a等前端方向,和我的方向其实不是那么匹配。于是我和面试官表达了自己愿意学习这些的态度,同时我也有数字信号处理,C/C++这些基础。整个面试官过程大概半个小时吧,因为二面面试官很忙,还要着急去开一个会,后面手撕代码题目直接让说思路,不写了。

手撕代码:找出前top K个数字。很常见的题目了,最小堆或者仿照快排的思路写代码。

二面之后我的心里也很没有底,最后只能看二面面试官是否给我机会了,因为自己之前确实没有相关的项目经验。好在后来二面面试官让我通过了,拿到了第一个实习offer!

Hr面:
Hr面基本和网上查到的那些问题差不多,大致是职业规划,自己将来想工作的城市,以及自己项目中的一些难点吧(主要体现自己克服困难,解决问题的决心和能力吧)。

地平线-多模语音识别算法

base北京,发录用函,由于字节也差不多同时发offer,实习还是想去大厂,于是委婉拒绝了。地平线感觉是将算法和芯片绑定起来,做成解决方案出售吧。涉及的音频方向的还是挺多的,比如语音唤醒,语音识别等等,应用场景比如车载,智能家居等等,都挺接地气的。同时,WeNet团队的核心成员基本也都在地平线,也是我比较仰慕的原因吧。

一面:面试官没开摄像头,看不到人,感觉面试稍有高冷。提问了下简历里的项目,基本上简单了解了下,问了下我想去地平线做什么业务。当时我不太清楚,只是感觉模型部署我可能熟悉一点,于是他也提供了一些其他语音的方向,比如语音唤醒等等。我本来比较担心自己不太懂语音识别里的解码器等知识,不过面试官的意思是现在基本上端到端的模型,解码器是属于比较偏研究的方向,不了解也没事。基本面试了35分钟左右。

手撕代码:手写卷积或者编辑距离,二选一。于是再次手写卷积。

二面:二面面试官人很好,感觉很亲切。问的内容基本也是我的简历里的项目,没有什么拓展的,倒是说我的一个视唱评测的方法可以用到他们的车载卡拉OK场景中,感觉还有点意思。二面没有手撕代码。

没有Hr面,上午二面完毕,下午hr发offer,告知了实习待遇等情况。

阿里云智能-视频云 智能语音

已oc,但近期阿里的招聘流程暂停,应该发不出录用函。实习base大概率是杭州,面试官在北京。主要是rtc业务,to B的视频直播转播业务吧,视频云团队参与了冬奥期间的直播。同时也有少量的音乐算法方向(来自之前的虾米音乐团队)。视频云团队在ICASSP上发表过不少论文,同时也参加了许多国际性赛事。想做点研究,打打比赛的同学可以考虑。经了解,实习做的事情偏探索方向,实习前还没定具体做啥。

一面和二面均电话面,无手撕代码

一面:
一面很短暂,大概电话5-6分钟问了下简历,我开始还以为是面试官提前了解下简历内容,结果是一面hhhh。

二面:
面试时间大概50分钟。每个项目都问的很详细,面试官遇到不懂的概念,会当场搜索并提问。对于两个算法项目,面试官都询问了实时性。所以投递算法的同学,不能只盯着自己的指标看,一定要测测算法的时间消耗和空间消耗,并且看看如何进行优化。面试过程基本是边聊天边拓展吧,只要讲清楚项目细节就没问题。面试官也很nice。

Hr面:
阿里的Hr面一定要好好对待,是有挂人的权利的。Hr面时要能get到Hr想要了解的东西。如果你发现Hr一直在就某个问题换着法的问你,很有可能是没有从前面的回到中get到她想要的信息。比如我当时问到了如何和同学分工组织完成任务,以及后来又询问我和导师地沟通过程,这些其实就是考察团队写作能力,以及和上级的沟通能力,需要自己恰当地去回答,来体现自己的这些能力。阿里的Hr面感觉除了询问职业规划外,最重要的特点是比较在乎你的项目难点(非技术),你和同事,上级的关系处理等。

没有拿到offer

Bilibili CV算法

因为Bilbili的没有音频算法,所以选择了CV算法。从面试官那里得知,他们CV算法落地的主要场景有点像自动审核,判断用户发布的视频有没有违规,同时也有些图像生成的探索方向吧。

面试问题:主要是问我项目里面的用的一些音频算法和一些CV的算法。发现面试CV相关的岗位时,面试官比较喜欢去问音频是怎么用卷积来提取特征的,因为一些CVd的面试官没有时频变换的概念,这个时候需要通俗地给他们介绍下。同时他们也会比较关心为什么使用二维卷积,为什么声音这种时间依赖性强的序列没有去使用LSTM,这些也需要和面试官解释清楚。

手撕代码:最长回文子序列。由于Bilibili是返校后第一家面试的公司,当时算法题目还没开始二刷,这道题目大概半个月前做过了一次,后面没做遗忘了。所以当时做的时候把子序列搞成了子串去做,同时还写的是暴力解法。后面深刻反思,题目一定是要二刷三刷的,遗忘曲线是很科学的。。。

结果是Bilibili一面挂了。

支付宝事业线-IoT事业部 智能语音

支付宝这边的智能语音主要的落地场景是蚂蚁集团IOT设置(如商家使用的蜻蜓扫码)和支付宝上面的语音合成业务(比如春节打年兽的一些音效,以及支付宝到账这些语音合成)。

蚂蚁集团的两面面试都是电话面,没有手撕代码。

其中一面的面试官原来是搞CV的,后来半路出家来搞了语音,面试过程中也主要是聊了下我的两个简历项目。提问比较详细,包括数据集的采集,怎么去做标注的,有没有考虑一些大型的数据标注平台(这个后来我想了下,或许应该研究下自动标注数据标注的一些研究)。同时我的一个项目是把目标检测模型用到音符切割中,这一点和VAD有些相似,同时有些不同。面试官比较好奇如何把目标检测模型用到音频信号中,以及我的项目和VAD的一些区别和联系。总的来看,基本一面的面试官把项目的细节都给问到了,水平怎么样也清楚,面试还是很有水平的。

一面过了几天之后一直没有二面,于是去催了下一面的面试官,后来来了二面。二面面试官本来是计划晚上6点开始面试的,但是快到面试时间时由于面试官会议的原因,面试官决定6点半面试。这场面试我的状态不是很好,按照原本的计划是6点面试,所以准备面试完吃晚饭。结果推迟半小时后,比较饿也有点低血糖,所以面试官让我讲项目时,我的语速不由自主的越来越快,因为感觉头有点发晕了。结果讲完项目之后面试官就建议终端面试了,大概的意思是他们这个岗找的实习生很少,我还不太满足他的预期吧,建议终止掉流程放我走,让我更快选择其他机会。于是我同意了,后面就面试了阿里云智能的视频云。

这次面试可能确实是他们的语音智能的岗位比较少,同时也有可能是我的面试状态给了面试官一些不好的感觉吧。只能说,如果再碰到这种状态不太好的情况,直接和面试官申请换时间面试就行了,没必要强行去面试,体验也不是很好。

腾讯AI lab 机器学习

腾讯AI lab面试我的面试官做的方向是游戏中的场景生成,感觉有点类似元宇宙的概念吧,做的东西和腾讯本身的赚钱业务还是挺接近的。实习的时候会根据时间长短来看是做偏落地还是偏探索的工作。

面试问题:结合简历来问,因为两个项目的内容比较多,让选一个项目来讲。讲解项目的过程中感觉有点像做交流探讨吧,面试官试图去理解我讲的项目,同时会针对自己的一些疑惑提问。一面感觉更像是简历面,主要是了解项目,也没有问一些很八股和技术细节的东西,比如xxx模型的细节给我讲下之类的,可能这些二面面试官才会深挖吧。

手撕代码:手写带stride的卷积。题目写过很多次了,基本算法岗必考吧。

个人感觉和自己做的音频方向差距比较大,所以一面的时候表达的也比较犹豫吧。所以二面面试官提前打来电话说可能和我的兴趣点不太一致,不进行面试了,也不会有二面面评,可以等腾讯其他部门的机会。

没面试机会

美团语音识别

美团的语音识别岗的实习转正HC真的非常非常少,据说上海和北京都只有一个,加上我本来简历里面的一些项目和语音识别不是完全匹配,所以估计他们招聘也很谨慎,我没有获得面试机会。不过要是能够发个邮件通知下就好了,中间半个月的时间还在期待面试。毕竟感觉自己笔试不是很差,但没有收到面试机会感觉很奇怪。

百度机器学习

百度的机器学习收到了面试通知,奈何百度的面试机会需要去抢,等我准备选时间的时候发现都选满了,也是头一次知道百度的面试是需要抢到名额才能去面的。。。没有抢到的只能等下次看给不给你发邮件了,反正我是过了10多天还没收到面试邮件了,估计招满了。

京东语音识别

京东应该是笔试挂了,算法题第二题应该是最小生成树改下去做,我读题目时没理解好把题意读反了(个人的理解能力不是很强,有时候题目太行需要花半天理解。。。),导致始终只能过9%,关键是测试用例恰好也过了。事后再次想想题目才发现自己吧题目理解反了,没有获得面试机会。

网易云音乐音频算法

网易云音乐和腾讯音乐集团(TME)是我简历比较匹配的,因为我研究生期间的科研经历主要是乐器转录和唱歌评测这些,所以很早以前想去这两个公司。不过后来觉得音乐的领域太小了,想在音频这样一个更大的领域发展。网易云音乐邀请面试拒绝了,因为网易的面试启动比较晚,当时手里有字节的offer,就不太想面了。TME因为是腾讯的子公司,腾讯今年的情况不太好,TME猜测可能今年的招聘HC也会控制。

#实习面经##实习##面经#
全部评论
大佬写的真不戳,可以转载至我的公众号:音频信号处理那些事儿 吗(欢迎做音频的小伙伴们儿关注呀),哈哈哈,也欢迎音频的小伙伴jia维qun交流呀
4 回复
分享
发布于 2022-04-17 21:34
大佬你好,本科生,在语音合成方向的实验室搬过砖。有没有可能拿的到音频算法方向的实习
3 回复
分享
发布于 2022-07-18 18:07
联想
校招火热招聘中
官网直投
前辈你好,请问现在研一数学与统计专业,做的方向是音乐识别的方向,这种项目有机会往做音频算法上面去发展吗?
2 回复
分享
发布于 2023-03-06 22:38 江苏
2023TME校招投递倒计时一周啦,快来投简历~ TME内推码:LNY3RG 有问题可以私聊我,看到必回~
1 回复
分享
发布于 2022-09-16 15:52 广东
楼主,请问一下,为什么字节没看到有飞书实时音视频这个部门,只有实时音视频😂
点赞 回复
分享
发布于 2022-04-19 19:47
这个分享好棒!感谢分享
点赞 回复
分享
发布于 2022-04-19 20:05
膜拜一下大佬
点赞 回复
分享
发布于 2022-04-21 11:30
大佬有什么论文吗?
点赞 回复
分享
发布于 2022-05-03 00:50
膜拜大佬
点赞 回复
分享
发布于 2022-09-30 00:23 辽宁

相关推荐

17 107 评论
分享
牛客网
牛客企业服务