字节秋招痛苦三面
1. k-means聚类点初始化阶段有什么优化策略?
2. 如何评估聚类的好坏?
3. 介绍transformer架构?
4. Attention计算时间复杂度?
5. 超长序列下降低Attention时间复杂度的方法?
6. Transformer用的什么Norm?
7. 分类模型的指标有哪些?
8. 分类模型的损失函数?交叉熵损失相比于均方差损失的优势?
9. 模型训练过程中哪些行为可能导致梯度爆炸?
10. 手撕 树的最长链长度
面的实在有点痛苦,主包做的大模型方向,确实对过去的分类模型不是很了解,问的东西也没什么答出来的,大模型相关的八股也没问,简历上的东西也不问,应该是业务原因吧,可能用大模型不多所以不怎么问大模型,感觉是凉了