1. 自我介绍2.项目介绍3. 你的项目有用到很多微调方式,能给我解释一下吗?(lora pv2 prompt tuning 等)4. 能详细介绍一下 Transformer 结构吗?5. bert 在训练的时候, 如果一个 batch size 的内容长度不一样, 这个怎么解决?(我说的加 padding token)6. 那加 padding token 会不会对计算结果有影响?(反应了很久没理解问题, 我就说从预训练一开始就这样,应该不会影响的 ,相当于 pad token 这块都是-100 不计算 loss)7. 这个 loss 是什么 交叉熵还有几个提问给忘记了 做了一道 mid 难度的 dp 题,1-26 对应 a 到 z,给一个 nums 字符串,有多少种转换方式。 第一次写没考虑 0, 他给的 case 没过,改了一下。