字节跳动机器学习AILab一面
面试官挺和蔼的,一直在引导我,可惜我不是很争气,这次面试最大的感悟就是,我不知道该回答什么。。
先聊了一会项目然后问问题大概15分钟?
然后问BN和LN区别之类的
讲讲self attention?
然后问题来了,问bert是怎么训练的。
我:什么叫怎么训练的。。。
面试官:就是你是用pre trained的对吧,他这个pre trained是怎么训练的。
我:额。。。用自己数据集训练的?
面试官:。。。可能你nlp用的少,就是他先mask。。。
我立马打断:哦mlm啊,那我懂。然后我们都笑了
面试官:self attention你了解过什么post和pre什么什么我记不清了(查了一下叫pre norm和post norm)
我:额大概什么意思?
面试官:就是你知道selft attention是有resnet的结构的,现在有不同流派一个是加在LN层后一个是加在前面,各有什么优势之类的?
我:额。。。不知道。。。
面试官:你谈到GPT,那什么时候用GPT什么时候用bert?
我:额。。。内心一团雾水这是让我从性能回答吗。。
面试官:哦是这样的模型分为AR和AE,像GPT可以用来生成语句,bert就不太行(哦。。。原来是这个啊。。。)
面试官:你做的时候用过加速吗比如什么多块gpu
我:啊这个做过
面试官:那你是怎么加速的?
我:额。。数据集分割可以放到不同gpu里面,self attention也可以?
面试官:额。。。模型一般不用。。。然后说了两个加速的什么名称(什么gemm?),我没听懂。。问我不是按照这样的来吗?
我:懵逼。。。
面试官:好吧。。。那时间差不多了做个算法题目吧
算法题:你有个词库,然后你回慢慢输入一个单词,要求你每输入一个单词就弹出符合要求的单词。比如你输入m,就弹出mouse,month,math之类的,然后你输入mo就弹出mouse,month,反正这些单词都是词库里的,只用管词库里面的。
反问:现在实习还有hc吗,回答还有的
总结:总共50分钟感觉挺凉的,有的其实知道,但是不知道回答什么,泪目。。。
顺便一提有大佬会的能否帮小弟解答一下部分面试题
问了下别人有人说是Lamb迭代器增加batch数量,加快并行效率,不知道是不是这个。。。实在没了解过一直用的AdamW
更新:
最近几天看并行的相关内容,终于知道并行那一块问的什么了,问的是Ring allreduce。。
更新:
竟然过了。。。神他妈的过了。。。我都没脸面了。。。面试太神奇了,有的公司八股文全答上来了不给过,这真的玄学
再次更新:
#字节跳动##实习##面经##机器学习##算法工程师#