1.项目拷打2.Transformer的架构相关的问题哪个组件带来了模型的非线性?为什么除以根号d?Softmax的性质,正无穷/负无穷的时候呈现什么样的性质多头注意力的时间复杂度是?GQA的原理是啥?对哪些进行分组了解哪些位置编码?ROPE了解过吗移除掉FFN结构,会有什么问题?对于 rating 机制输出的结果是升维还是降维?3.机器学习/搜广推类3.1负样本比例可能超过 1: 1, 000,就是我曝光 1, 000 次,他可能只有一次购买,那针对这种正负样本不平衡的问题,你觉得可以从哪些方面去优化?3.2用什么指标去评估你的在线离线训练效果呢?是否点击的二分类场景3.3逻辑回归的模型,我如果给我的所有的模型初始化都是按 0 初始化的。你觉得会有问题吗?如果有会是什么问题3.4L1 正则和 L2 正则的区别是什么?3.5二分类的问题里面,为什么不使用 MSE loss 去训,而使用 CE loss 去训?>😥谢谢你,让我知道了我我一点也不会。我马上去学。再也不和🦞过多的聊天了😭