锐捷 算法方向 nlp 一面

#面试##如何判断面试是否凉了##算法##面经##哪些公司面试官让你印象深刻?#

已挂~
面试体验:
将近1h,面试官很nice,全程笑呵呵的应对,就没那么紧张了,最后还跟我挥手拜拜,体验感很不错!奈何回答的不太好。

面试内容:
深挖简历,包括论文、实习工作、简历上写的每一条都有可能被问到。
涉及到的模型细节也问了,但时间有点久我没咋记住就说错了不少....
其中有问到:
用了哪些词向量?word2vec,有自己训练过吗?了解训练流程吗?   分词过程中如何解决有歧义的单词?
BERT如何分词的?如何获得词向量的?位置编码怎么做?与传统的Transformer的位置编码的区别?
项目中的模型介绍、损失函数等。

八股没有问,说是笔试成绩高就没问基础知识。

反问:
技术栈、业务场景、应聘这个岗位需要具备哪些能力(基础知识、代码复现能力)
全部评论

相关推荐

1.自我介绍2.抓着项目的一些问面试官喜欢问从顶层的实验设计的一些东西我的实验为什么要选用 cos 距离或者 mse?能不能用 KL散度?是不能用还是不好用?KL 散度和交叉熵的区别和联系是什么?(都是我没考虑过的问题 有点汗流浃背)既然你用到了那么多微调方式, 那你有什么实验过程中探究了 lora 的比如 秩之类的参数的影响吗?prompt tuning  ptuning v2 有啥区别?(说完他觉得我说的太八股太宏观了,又讲了一堆原理)为什么 p v 2 比 prefix tuning 要减去那个 lstm 和 linear? 我说论文里说适配 NLG 任务,好像记错了。有没有接触过强化学习?为什么你们只考虑微调,是因为啥原因?你是用几张卡跑实验?多大参数的模型?跑的时候内存占用量多大?有没有试过全量微调? 那你想一下,假如我用 deepspeed 的几种版本, 全量微调7B 模型,内存占用多大?最后大概的意思就是说他比较看重实验最初的一些设计能力, 不能蹬 OOM 再来解决。让我之后要多理解一下 deepspeed。说社招看的多这些理解能力。反正基本上就是项目围绕讲。 后面说我项目做的,工程应该能力不错。 代码题也是那种很简单的处理数据。
点赞 评论 收藏
转发
1 1 评论
分享
牛客网
牛客企业服务