一面: 1. 自我介绍 2. 项目介绍 3. Transformer架构 LN的作用 残差的作用 位置编码的公式,作用,为啥有用 softmax为啥除以根号dk,推导会不会变【没推出来】 4. Albert为啥跨层参数共享有用【没答出来】 5. L1为啥能够稀疏解 【没答出来】 6. 手撕代码 带重复的全排列 7. python的垃圾回收机制 8.反问部门业务 二面: 1. 自我介绍 2. 实习做了什么 3. 做过NLP的什么东西 4. 介绍GA...