字节风控一面

1. 树模型 GBDT?
2. 介绍Transformer架构
3. 交叉注意力机制的QKV分别来自哪
4. 正则化的作用
5. 为啥使用layer Norm而不使用 Batch Norm
6. 位置编码的形式
7. 旋转位置编码跟三角函数位置编码的具体区别
8. Lookup Embedding
9. 三角函数位置编码和可学习的位置编码的优缺点
10. DPO跟PPO的区别
全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客企业服务