字节大模型推荐算法实习面经

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.介绍rankmixer的做法
2.手撕tokenmixing
3.手撕 MultiHeadSelfAttention
4.介绍为什么rankmixer为什么有效对比attention结构为什么更容易scaling
5.sim序列是怎么做的原始序列有多长GSU怎么做的
6.某些负反馈目标的正负样本比例
7.rankmixer线上时延
8.训练吞吐,样本量,模型dense参数量,MFU计算方法
9.手撕AUC
10.了解哪些归一化手段
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务