26秋招字节广告算法一面凉经

1.实习介绍
2.问了一下实习里面项目的数据来源,数据清洗策略
3.transformer的计算复杂度分析,写伪代码
4.多头和单头的情况下有什么区别
5.DeepSpeed里面流水线并行是怎么优化复杂度的
6.Ff n的权重在实践过程中有什么优化方案
7.pre-layer normalization有什么好处
8.transformer有太多层不稳定怎么办
反问:业务内容,业务有什么特点,为什么捞大模型简历
全部评论

相关推荐

不愿透露姓名的神秘牛友
11-27 14:32
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
11-28 11:32
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务