字节秋招痛苦三面

1. k-means聚类点初始化阶段有什么优化策略?

2. 如何评估聚类的好坏?

3. 介绍transformer架构?

4. Attention计算时间复杂度?

5. 超长序列下降低Attention时间复杂度的方法?

6. Transformer用的什么Norm?

7. 分类模型的指标有哪些?

8. 分类模型的损失函数?交叉熵损失相比于均方差损失的优势?

9. 模型训练过程中哪些行为可能导致梯度爆炸?

10. 手撕 树的最长链长度

面的实在有点痛苦,主包做的大模型方向,确实对过去的分类模型不是很了解,问的东西也没什么答出来的,大模型相关的八股也没问,简历上的东西也不问,应该是业务原因吧,可能用大模型不多所以不怎么问大模型,感觉是凉了

全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务