一面二面都有,二面感觉不太好顺便发出来吧一面纯八股总时长1h简单介绍项目写交叉熵公式优化器从sgd-adamw中间怎么发展的,各自做了什么改进xgb和lightgbm的区别写一个两层神经网络写transformer一个block的伪代码(从embedding到ffn)问参数更新方式(负梯度)问激活函数,刚从sigmoid开始说就问有没有更sota的,答swiglu,追问公式(忘了),问能不能画一个图(不会画)逻辑回归中sigmoid公式(写出来)bn和ln的区别,追问,问的很细给了一个实际场景,问用bn还是lnprenorm和postnorm分词算法(答bpe,问为什么用bpe)写transformer的时候问位置编码和原始embedding是逐元素相加吗以上问题,除了少部分口头回答,面试官都让把答案/公式/代码写到阿里面试的代码网站上做记录,感觉像在期末考试,第二天过二面总时长40min问项目,问的很深,数据集怎么来的,训练模型之后在哪些方面有提升哪些没有,怎么考虑碰到的问题的,目前实习中没有解决的问题,有什么想法吗(有点类似于场景题,并且考察反思问题设计实验的能力)问项目中的八股,灾难性遗忘等等怎么解决聊到强化学习了,问sft和强化学习的区别dpo公式dpo的问题二面回答的磕磕绊绊,但还是希望能有互联网厂的offer,祈祷中