面经 | NLP算法岗(百度)
提前批在8月初,三面技术面,没有HR面(其中三面听说是大boss面,技术人际各个方向都会涉及)
提前批可以自主投递多个部门,这时一定要找对靠谱的师兄师姐内推🤦♂️正式批部门不能自主选择
b. 考察内容非常之全面,很注重基础;对于所有考察的内容,更注重理解。
c. 回答问题的思路以及速度都是考察项。
一面
-
自我介绍+项目
-
项目细节
-
batchsize大或小有什么问题
-
LR怎么设置
-
-
机器学习基础:
-
L1L2正则化
-
优化器
-
激活函数
-
(老生常谈,不再赘述)
-
-
python基础:
-
yeild是什么
-
与return的区别
-
线程进程
-
装饰器
-
python内部实现的多线程有什么问题
-
假的多线程
-
-
-
Linux基础:
-
AWK
-
nohup
-
用过最复杂的linux命令是什么
-
-
NLP基础 :
-
word2vec 两种训练方式哪种更好?
-
对生僻词谁更好?
-
CBOW模型中input是context(周围词)而output是中心词,训练过程中其实是在从output的loss学习周围词的信息也就是embedding,但是在中间层是average的,一共预测V(vocab size)次就够了。
-
skipgram是用中心词预测周围词,预测的时候是一对word pair,等于对每一个中心词都有K个词作为output,对于一个词的预测有K次,所以能够更有效的从context中学习信息,但是总共预测K*V词。
-
skipgram胜出✌️
-
-
编程题:
-
最长公共子序列
-
(老生常谈,不再赘述)
-
二面
-
自我介绍+项目
-
CRF作用
-
标注的时候样本不均衡怎么办
-
数据增强
-
损失函数有个weight参数也可以一定程度解决这个问题 (如果正例少,损失函数的w就提高,(会提高F1 ))
-
-
Transformer
-
self-attention 有什么作用(捕获依赖关系)
-
梯度消失爆炸(CEC机制)
-
螺旋爆炸编程题快问快答环节💥
-
问了很多编程题,要求列出公式以及完整思路,最后选一个写出代码
-
时间太久了 =_= 小媛只记住了这几个
-
最大上升子序列(dp[i] = dp[j]+1 (j < i && nums[j] < nums[i]))
-
旋转数组找K值
-
只有01生成器,如何生成 0-3等概率,如何生成 0-k等概率(模拟二进制)
-
-
各种python基础:
-
python2python3map的差别
-
装饰器
-
线程安全/读写锁/智能指针
-
-
大文件字典:比如{abc:'aabc','cba','ccab'} mapreduce
-
Hadoop
-
流式抽样
-
对数据流的随机抽样
-
蓄水池抽样算法(Reservoir Sampling)
-
1/n的概率留下当前的,手中的k个每个的概率是1/n-1
-
-
跳台阶+有一次后退机会(dp[i][0/1])
三面
-
项目各种发散的不同的业务场景问题 * N
-
人际需求问题
-
上线遇到用户反馈错误怎么解决
-
迅速学习编程语言的能力
-
能否接受算法之外的其他工作比如开发
-
百度内部是否还投了别的部门(因为提前批可以自主投递多个部门)
-
面试官说后续等消息,可能要很久
-
已经训好的模型,放到新的数据上怎么提高性能,模型不允许fintuing
-
增量训练
-
在线学习方法
作者:西柚媛
编辑:西柚媛
本文来自程序媛驿站,未经授权不得转载.
如有需要请公众号后台联系
(欢迎转发到朋友圈~)
#百度##面经##校招##算法工程师#