一面(45min左右): 1.自我介绍 2.问两篇论文相关,巴拉巴拉说了一堆 3.平时用pytorch还是tf,答pytorch,接下来问pytorch怎么搭建模型什么的,评估模型的时候需要冻结哪些参数 4.Transformer连环炮 4.1 介绍一下transformer 4.2 多头注意力机制计算公式,如果要分8头,那么输入的维度有什么要求(答的可以被8整除) 4.3 FFN层的细节 4.4 多头注意力在训练的过程中,如何解决不同头参数趋同的问题(感觉是开放题目,答的不是很好) 4.5 LN和BN的区别,在训练和评估中有什么区别 4.6 post-LN和pre-LN 5.项目用了LoRA...