字节跳动机器学习AILab一面

面试官挺和蔼的,一直在引导我,可惜我不是很争气,这次面试最大的感悟就是,我不知道该回答什么。。

先聊了一会项目然后问问题大概15分钟?
然后问BN和LN区别之类的
讲讲self attention?
然后问题来了,问bert是怎么训练的。
我:什么叫怎么训练的。。。
面试官:就是你是用pre trained的对吧,他这个pre trained是怎么训练的。
我:额。。。用自己数据集训练的?
面试官:。。。可能你nlp用的少,就是他先mask。。。
我立马打断:哦mlm啊,那我懂。然后我们都笑了
面试官:self attention你了解过什么post和pre什么什么我记不清了(查了一下叫pre norm和post norm)
我:额大概什么意思?
面试官:就是你知道selft attention是有resnet的结构的,现在有不同流派一个是加在LN层后一个是加在前面,各有什么优势之类的?
我:额。。。不知道。。。
面试官:你谈到GPT,那什么时候用GPT什么时候用bert?
我:额。。。内心一团雾水这是让我从性能回答吗。。
面试官:哦是这样的模型分为AR和AE,像GPT可以用来生成语句,bert就不太行(哦。。。原来是这个啊。。。)
面试官:你做的时候用过加速吗比如什么多块gpu
我:啊这个做过
面试官:那你是怎么加速的?
我:额。。数据集分割可以放到不同gpu里面,self attention也可以?
面试官:额。。。模型一般不用。。。然后说了两个加速的什么名称(什么gemm?),我没听懂。。问我不是按照这样的来吗?
我:懵逼。。。
面试官:好吧。。。那时间差不多了做个算法题目吧

算法题:你有个词库,然后你回慢慢输入一个单词,要求你每输入一个单词就弹出符合要求的单词。比如你输入m,就弹出mouse,month,math之类的,然后你输入mo就弹出mouse,month,反正这些单词都是词库里的,只用管词库里面的。

反问:现在实习还有hc吗,回答还有的

总结:总共50分钟感觉挺凉的,有的其实知道,但是不知道回答什么,泪目。。。

顺便一提有大佬会的能否帮小弟解答一下部分面试题

问了下别人有人说是Lamb迭代器增加batch数量,加快并行效率,不知道是不是这个。。。实在没了解过一直用的AdamW

更新:

最近几天看并行的相关内容,终于知道并行那一块问的什么了,问的是Ring allreduce。。


更新:
竟然过了。。。神他妈的过了。。。我都没脸面了。。。面试太神奇了,有的公司八股文全答上来了不给过,这真的玄学


再次更新:
#字节跳动##实习##面经##机器学习##算法工程师#
全部评论
hhh是第一次面试吗?感觉你好紧张
2 回复
分享
发布于 2022-04-18 16:27
你是女生吗?问的好简单...
2 回复
分享
发布于 2022-04-18 19:39
博乐游戏
校招火热招聘中
官网直投
pre norm就是在残差前norm啊,这样残差的效果更强,训练计算量更低,但是会削弱模型深度带来的增益。post norm就是正常bert用的,在残差后面加,深度带来的效果更明显,但是计算量会更大,目前post norm认为更适合😂感觉你基础知识都没学全啊,大部分都挺基础的,gpt这么有名的自回归生成式模型都不知道,因为xlnet提出了自编码和自回归的概念,gpt可以用来做生成任务,bert不行,xlnet对此提出了解决办法
2 回复
分享
发布于 2022-07-19 08:43
没有恶意,但按你写的这过程感觉答得稀碎呀,感觉你从头懵逼到尾,是面试官问题表述的不清楚么?
1 回复
分享
发布于 2022-04-20 19:51
能问下面的是ai-lab-nlp岗吗
点赞 回复
分享
发布于 2022-05-11 22:17

相关推荐

1.自我介绍2.抓着项目的一些问面试官喜欢问从顶层的实验设计的一些东西我的实验为什么要选用 cos 距离或者 mse?能不能用 KL散度?是不能用还是不好用?KL 散度和交叉熵的区别和联系是什么?(都是我没考虑过的问题 有点汗流浃背)既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗?prompt tuning  ptuning v2 有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear? 我说论文里说适配 NLG 任务,好像记错了。有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?有没有试过全量微调? 那你想一下,假如我用 deepspeed 的几种版本, 全量微调7B 模型,内存占用多大?最后大概的意思就是说他比较看重实验最初的一些设计能力, 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。反正基本上就是项目围绕讲。 后面说我项目做的,工程应该能力不错。 代码题也是那种很简单的处理数据。
点赞 评论 收藏
转发
被拷打了一个半小时, 感觉也寄了。1.自我介绍2. 针对字节的实习,问我 flask 和 go 的 gin 框架的体验和区别(我黑人问号,以为走错了,不记得了,随便说了几句。3.你熟悉 C++,说一下堆和栈的区别4.数据结构中堆栈队列介绍一下。5. 拷打第二份实习大模型的具体内容, 主要还是我介绍。6. 你知道预训练的一些并行方式吗?(说没接触过预训练, 大概讲了一下知道的两种常用并行,就是数据并行和模型并行解释了一下)7.你知道预训练的数据应该怎么预处理吗?(没懂,我说针对质量进行过滤吧?8.换句话说, 如果我不需要对所有的数据都训练,只需要对每一部分有权重的取数据怎么做?(我:最暴力的方法就是每一块都按比重选一定数量再用于训练)你这个是离线方式,我在线想要调试各种方式怎么做?(我:随机数然后映射到对应的数据去随机取?)9.你知道 Llama 用了多少 token 数据训练吗?(我 这真没记)10. 你知道 flask attention 吗?(没用过,不知道原理,只知道这个东西存在。。11.那你知道 flask attention 能有多大的性能提升吗? 不知道12. 你知道最早的 attention 做机器翻译,它的注意力怎么得的吗?(不记得,瞎说一通)13. 这个 attention 和 self attention 的 QKV 怎么来的?(attention 应该是初始化的吧?巴拉巴拉瞎说14. 有了解过最近那些超长文本大模型的预训练吗?(没有了解具体原理,但是应该就是加大数据训练长度, 用外推更好的位置嵌入吧?)15. 你说到外推性,那你了解常见的提高外推能力的方式吗?(主要还是位置编码吧? 给他讲解了一下 ALIBI 这个方式)16 讲一下你对旋转位置编码的理解。17 位置和注意力分数的曲线是什么样子的呢?(一条向上的抛物线,位置越远注意力越小)18. 这个曲线会不会和三角函数一样呢?(我觉得如果是用 Transformer 原本的位置嵌入可能会吧。。。。其他的应该不会?)19 回到我们刚刚说的数据处理, 你能不能用代码实现一下看看?(自己电脑没装 Python  pytorch,就用 Cpp 写,简单写了个逻辑, 随机数有点问题,也跑不通,大概说了一下方式)在写个反转链表反问:
点赞 评论 收藏
转发
#软件开发2024笔面经# 感觉已经凉透了。。。写点热乎的凉经攒攒人品。反馈效率非常3高,只要这轮过了当天就会联系你约下一面,是我面过的最不墨迹的单位一面聊一个项目(自己挑)Deepspeed了解吗介绍下熟悉的主流大模型(llama)和transformer有什么区别/改进旋转位置编码怎么做的了解强化学习吗算法题:1.大小为k的滑动窗口扫描无序数组(步长1),输出移动过程中的窗口最大值2.最大值栈反问二面聊项目由项目引申细节提问(项目每个人不一样嘛,所以具体问题的参考意义不大,但可以再确认下自己项目的技术细节):bert的位置编码设计有什么数学含义?正余弦位置编码为什么2t要除以d?说一下吉布斯采样怎么个事算法题:通配符匹配(hard)场景题:怎么在一万篇文档里查找50万大小的词典中的词是否出现?反问三面 常用什么语言?Python怎么查字符串在另一个字符串中是否出现?答是find函数返回值?正常答底层实现逻辑?(嗯,这话一问出来我差不多知道我算是走远了。。。。)引申:你自己实现的话怎么实现字符串查找(模式串 母串 不用想太复杂)从商品描述中抽品牌,要求准确率覆盖率要高品牌词典大概50万,你怎么做?交流过程中有提到要考虑词义消歧,要考虑挖掘新的品牌词出来设计程序把物品pair list 同类合并成类/簇list(pair代表成对相关)反问总结就是:自己项目必须熟,大模型标配,字符串拉满,如果你有搜索项目经验的话抓瞎程度应该会比我低一些(吧
点赞 评论 收藏
转发
3 46 评论
分享
牛客网
牛客企业服务