阿里云机器学习面经
一面二面都有,二面感觉不太好顺便发出来吧
一面纯八股总时长1h
简单介绍项目
写交叉熵公式
优化器从sgd-adamw中间怎么发展的,各自做了什么改进
xgb和lightgbm的区别
写一个两层神经网络
写transformer一个block的伪代码(从embedding到ffn)
问参数更新方式(负梯度)
问激活函数,刚从sigmoid开始说就问有没有更sota的,答swiglu,追问公式(忘了),问能不能画一个图(不会画)
逻辑回归中sigmoid公式(写出来)
bn和ln的区别,追问,问的很细
给了一个实际场景,问用bn还是ln
prenorm和postnorm
分词算法(答bpe,问为什么用bpe)
写transformer的时候问位置编码和原始embedding是逐元素相加吗
以上问题,除了少部分口头回答,面试官都让把答案/公式/代码写到阿里面试的代码网站上做记录,感觉像在期末考试,第二天过
二面总时长40min
问项目,问的很深,数据集怎么来的,训练模型之后在哪些方面有提升哪些没有,怎么考虑碰到的问题的,目前实习中没有解决的问题,有什么想法吗(有点类似于场景题,并且考察反思问题设计实验的能力)
问项目中的八股,灾难性遗忘等等怎么解决
聊到强化学习了,问sft和强化学习的区别
dpo公式
dpo的问题
二面回答的磕磕绊绊,但还是希望能有互联网厂的offer,祈祷中
一面纯八股总时长1h
简单介绍项目
写交叉熵公式
优化器从sgd-adamw中间怎么发展的,各自做了什么改进
xgb和lightgbm的区别
写一个两层神经网络
写transformer一个block的伪代码(从embedding到ffn)
问参数更新方式(负梯度)
问激活函数,刚从sigmoid开始说就问有没有更sota的,答swiglu,追问公式(忘了),问能不能画一个图(不会画)
逻辑回归中sigmoid公式(写出来)
bn和ln的区别,追问,问的很细
给了一个实际场景,问用bn还是ln
prenorm和postnorm
分词算法(答bpe,问为什么用bpe)
写transformer的时候问位置编码和原始embedding是逐元素相加吗
以上问题,除了少部分口头回答,面试官都让把答案/公式/代码写到阿里面试的代码网站上做记录,感觉像在期末考试,第二天过
二面总时长40min
问项目,问的很深,数据集怎么来的,训练模型之后在哪些方面有提升哪些没有,怎么考虑碰到的问题的,目前实习中没有解决的问题,有什么想法吗(有点类似于场景题,并且考察反思问题设计实验的能力)
问项目中的八股,灾难性遗忘等等怎么解决
聊到强化学习了,问sft和强化学习的区别
dpo公式
dpo的问题
二面回答的磕磕绊绊,但还是希望能有互联网厂的offer,祈祷中
全部评论
佬,请问你这个是瓴羊吗?
相关推荐
查看17道真题和解析 点赞 评论 收藏
分享