一面: 1. QK的放缩因子 2. decoder的mask层是如何设计的 3. 为什么需要多头注意力 4. transformer的Position-wise Feed-Forward Networks为什么需要降维升维。 5. 过拟合、欠拟合怎么处理 笔试:[1,2,3,4,54,56,5] 不能相隔偷,最多能投多少 二面: 1.encoder层介绍一下。 2.dropout介绍一下,训练和推理有什么区别。 3.dropout、normalazation、激活函数的先后顺序。 笔试:84. 柱状图中最大的矩形 三面: 先笔...