音频算法实习面经

我硕士期间的研究方向应该来说偏音乐计算吧，简历里面的两个项目都和音乐比较相关，一个是人声的，一个是乐器的。从我个人的面试经历来看，面试问题基本都是围绕简历开展的。可能我的简历内容比较多，面试官想了解下。基本没有出现那种脱离简历的问题，可能最重要的经验就是一定要好好准备简历项目、搞清楚每个项目的重难点、里面每个步骤的原理，细节，选择A模型而不是B模型的理由等等这些。同时，面试过程一方面是向面试官展示自己，另一方面其实也是和面试官的沟通交流。谦虚自信大方地介绍清楚自己以及自己的项目，基本就没问题。

已拿offer

字节飞书-实时音视频算法

base深圳，发录用函，接了也准备去实习了。

字节的音视频算法还是招的很多的，毕竟字节那么多app基本都和音视频有关。不过我面试的是实时音视频岗位，比较偏向音频3a和编解码方向，非常注重实时性，同时也是工程业务导向的，不太做研究，一般也不采用深度学习之类的方法。如果想做偏研究方向的建议考虑字节AI lab智创语音团队。

一面：

问了一下我的简历中的项目，基本没有什么卡壳的地方。因为面试官之前和智创语音团队的成员共事过，而且我的简历的一个研究之前智创语音团队也做过，所以比较好奇他们的和我的有什么区别吧。另一个就是面试官有时候可能不理解自己简历里的一些概念，要尝试用面试官理解的概念来解释。比如当时面试官不太懂NW算法，解释这算法和DTW比较类似，只是递推公式稍有差异。同时面试官也指出目前也有些对齐算法可以做到端到端，比如softDTW之类的。这个我确实不懂，表示下来将看看学习下。不过后来查询了下，我的项目里的对齐必须要硬对齐，因此softDTW之类的软对齐方法我还是用不了的。

同时面试官也重复说了下他们的方向，是rtc中的音频3a和编解码这些，可能是担心我和他们不是很匹配吧。

手撕代码：使用numpy实现卷积

二面：

二面面试官感觉年龄明显比一面面试官大，估计是团队的leader。二面基本也是问简历，可能是把一面之后自己不太理解的一些问题再问一遍吧。同时二面面试官几次重复问了下我是否知道他们是做什么的，可能是怕我不知道他们更偏向3a等前端方向，和我的方向其实不是那么匹配。于是我和面试官表达了自己愿意学习这些的态度，同时我也有数字信号处理，C/C++这些基础。整个面试官过程大概半个小时吧，因为二面面试官很忙，还要着急去开一个会，后面手撕代码题目直接让说思路，不写了。

手撕代码：找出前top K个数字。很常见的题目了，最小堆或者仿照快排的思路写代码。

二面之后我的心里也很没有底，最后只能看二面面试官是否给我机会了，因为自己之前确实没有相关的项目经验。好在后来二面面试官让我通过了，拿到了第一个实习offer！

Hr面：
Hr面基本和网上查到的那些问题差不多，大致是职业规划，自己将来想工作的城市，以及自己项目中的一些难点吧（主要体现自己克服困难，解决问题的决心和能力吧）。

地平线-多模语音识别算法

base北京，发录用函，由于字节也差不多同时发offer，实习还是想去大厂，于是委婉拒绝了。地平线感觉是将算法和芯片绑定起来，做成解决方案出售吧。涉及的音频方向的还是挺多的，比如语音唤醒，语音识别等等，应用场景比如车载，智能家居等等，都挺接地气的。同时，WeNet团队的核心成员基本也都在地平线，也是我比较仰慕的原因吧。

一面：面试官没开摄像头，看不到人，感觉面试稍有高冷。提问了下简历里的项目，基本上简单了解了下，问了下我想去地平线做什么业务。当时我不太清楚，只是感觉模型部署我可能熟悉一点，于是他也提供了一些其他语音的方向，比如语音唤醒等等。我本来比较担心自己不太懂语音识别里的解码器等知识，不过面试官的意思是现在基本上端到端的模型，解码器是属于比较偏研究的方向，不了解也没事。基本面试了35分钟左右。

手撕代码：手写卷积或者编辑距离，二选一。于是再次手写卷积。

二面：二面面试官人很好，感觉很亲切。问的内容基本也是我的简历里的项目，没有什么拓展的，倒是说我的一个视唱评测的方法可以用到他们的车载卡拉OK场景中，感觉还有点意思。二面没有手撕代码。

没有Hr面，上午二面完毕，下午hr发offer，告知了实习待遇等情况。

阿里云智能-视频云智能语音

已oc，但近期阿里的招聘流程暂停，应该发不出录用函。实习base大概率是杭州，面试官在北京。主要是rtc业务，to B的视频直播转播业务吧，视频云团队参与了冬奥期间的直播。同时也有少量的音乐算法方向（来自之前的虾米音乐团队）。视频云团队在ICASSP上发表过不少论文，同时也参加了许多国际性赛事。想做点研究，打打比赛的同学可以考虑。经了解，实习做的事情偏探索方向，实习前还没定具体做啥。

一面和二面均电话面，无手撕代码

一面：
一面很短暂，大概电话5-6分钟问了下简历，我开始还以为是面试官提前了解下简历内容，结果是一面hhhh。

二面：
面试时间大概50分钟。每个项目都问的很详细，面试官遇到不懂的概念，会当场搜索并提问。对于两个算法项目，面试官都询问了实时性。所以投递算法的同学，不能只盯着自己的指标看，一定要测测算法的时间消耗和空间消耗，并且看看如何进行优化。面试过程基本是边聊天边拓展吧，只要讲清楚项目细节就没问题。面试官也很nice。

Hr面：
阿里的Hr面一定要好好对待，是有挂人的权利的。Hr面时要能get到Hr想要了解的东西。如果你发现Hr一直在就某个问题换着法的问你，很有可能是没有从前面的回到中get到她想要的信息。比如我当时问到了如何和同学分工组织完成任务，以及后来又询问我和导师地沟通过程，这些其实就是考察团队写作能力，以及和上级的沟通能力，需要自己恰当地去回答，来体现自己的这些能力。阿里的Hr面感觉除了询问职业规划外，最重要的特点是比较在乎你的项目难点（非技术），你和同事，上级的关系处理等。

没有拿到offer

Bilibili CV算法

因为Bilbili的没有音频算法，所以选择了CV算法。从面试官那里得知，他们CV算法落地的主要场景有点像自动审核，判断用户发布的视频有没有违规，同时也有些图像生成的探索方向吧。

面试问题：主要是问我项目里面的用的一些音频算法和一些CV的算法。发现面试CV相关的岗位时，面试官比较喜欢去问音频是怎么用卷积来提取特征的，因为一些CVd的面试官没有时频变换的概念，这个时候需要通俗地给他们介绍下。同时他们也会比较关心为什么使用二维卷积，为什么声音这种时间依赖性强的序列没有去使用LSTM，这些也需要和面试官解释清楚。

手撕代码：最长回文子序列。由于Bilibili是返校后第一家面试的公司，当时算法题目还没开始二刷，这道题目大概半个月前做过了一次，后面没做遗忘了。所以当时做的时候把子序列搞成了子串去做，同时还写的是暴力解法。后面深刻反思，题目一定是要二刷三刷的，遗忘曲线是很科学的。。。

结果是Bilibili一面挂了。

支付宝事业线-IoT事业部智能语音

支付宝这边的智能语音主要的落地场景是蚂蚁集团IOT设置（如商家使用的蜻蜓扫码）和支付宝上面的语音合成业务（比如春节打年兽的一些音效，以及支付宝到账这些语音合成）。

蚂蚁集团的两面面试都是电话面，没有手撕代码。

其中一面的面试官原来是搞CV的，后来半路出家来搞了语音，面试过程中也主要是聊了下我的两个简历项目。提问比较详细，包括数据集的采集，怎么去做标注的，有没有考虑一些大型的数据标注平台（这个后来我想了下，或许应该研究下自动标注数据标注的一些研究）。同时我的一个项目是把目标检测模型用到音符切割中，这一点和VAD有些相似，同时有些不同。面试官比较好奇如何把目标检测模型用到音频信号中，以及我的项目和VAD的一些区别和联系。总的来看，基本一面的面试官把项目的细节都给问到了，水平怎么样也清楚，面试还是很有水平的。

一面过了几天之后一直没有二面，于是去催了下一面的面试官，后来来了二面。二面面试官本来是计划晚上6点开始面试的，但是快到面试时间时由于面试官会议的原因，面试官决定6点半面试。这场面试我的状态不是很好，按照原本的计划是6点面试，所以准备面试完吃晚饭。结果推迟半小时后，比较饿也有点低血糖，所以面试官让我讲项目时，我的语速不由自主的越来越快，因为感觉头有点发晕了。结果讲完项目之后面试官就建议终端面试了，大概的意思是他们这个岗找的实习生很少，我还不太满足他的预期吧，建议终止掉流程放我走，让我更快选择其他机会。于是我同意了，后面就面试了阿里云智能的视频云。

这次面试可能确实是他们的语音智能的岗位比较少，同时也有可能是我的面试状态给了面试官一些不好的感觉吧。只能说，如果再碰到这种状态不太好的情况，直接和面试官申请换时间面试就行了，没必要强行去面试，体验也不是很好。

腾讯AI lab 机器学习

腾讯AI lab面试我的面试官做的方向是游戏中的场景生成，感觉有点类似元宇宙的概念吧，做的东西和腾讯本身的赚钱业务还是挺接近的。实习的时候会根据时间长短来看是做偏落地还是偏探索的工作。

面试问题：结合简历来问，因为两个项目的内容比较多，让选一个项目来讲。讲解项目的过程中感觉有点像做交流探讨吧，面试官试图去理解我讲的项目，同时会针对自己的一些疑惑提问。一面感觉更像是简历面，主要是了解项目，也没有问一些很八股和技术细节的东西，比如xxx模型的细节给我讲下之类的，可能这些二面面试官才会深挖吧。

手撕代码：手写带stride的卷积。题目写过很多次了，基本算法岗必考吧。

个人感觉和自己做的音频方向差距比较大，所以一面的时候表达的也比较犹豫吧。所以二面面试官提前打来电话说可能和我的兴趣点不太一致，不进行面试了，也不会有二面面评，可以等腾讯其他部门的机会。

没面试机会

美团语音识别

美团的语音识别岗的实习转正HC真的非常非常少，据说上海和北京都只有一个，加上我本来简历里面的一些项目和语音识别不是完全匹配，所以估计他们招聘也很谨慎，我没有获得面试机会。不过要是能够发个邮件通知下就好了，中间半个月的时间还在期待面试。毕竟感觉自己笔试不是很差，但没有收到面试机会感觉很奇怪。

百度机器学习

百度的机器学习收到了面试通知，奈何百度的面试机会需要去抢，等我准备选时间的时候发现都选满了，也是头一次知道百度的面试是需要抢到名额才能去面的。。。没有抢到的只能等下次看给不给你发邮件了，反正我是过了10多天还没收到面试邮件了，估计招满了。

京东语音识别

京东应该是笔试挂了，算法题第二题应该是最小生成树改下去做，我读题目时没理解好把题意读反了（个人的理解能力不是很强，有时候题目太行需要花半天理解。。。），导致始终只能过9%，关键是测试用例恰好也过了。事后再次想想题目才发现自己吧题目理解反了，没有获得面试机会。

网易云音乐音频算法

网易云音乐和腾讯音乐集团（TME）是我简历比较匹配的，因为我研究生期间的科研经历主要是乐器转录和唱歌评测这些，所以很早以前想去这两个公司。不过后来觉得音乐的领域太小了，想在音频这样一个更大的领域发展。网易云音乐邀请面试拒绝了，因为网易的面试启动比较晚，当时手里有字节的offer，就不太想面了。TME因为是腾讯的子公司，腾讯今年的情况不太好，TME猜测可能今年的招聘HC也会控制。

#实习面经##实习##面经#