字节大模型推荐算法实习面经
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.介绍rankmixer的做法
2.手撕tokenmixing
3.手撕 MultiHeadSelfAttention
4.介绍为什么rankmixer为什么有效对比attention结构为什么更容易scaling
5.sim序列是怎么做的原始序列有多长GSU怎么做的
6.某些负反馈目标的正负样本比例
7.rankmixer线上时延
8.训练吞吐,样本量,模型dense参数量,MFU计算方法
9.手撕AUC
10.了解哪些归一化手段
1.介绍rankmixer的做法
2.手撕tokenmixing
3.手撕 MultiHeadSelfAttention
4.介绍为什么rankmixer为什么有效对比attention结构为什么更容易scaling
5.sim序列是怎么做的原始序列有多长GSU怎么做的
6.某些负反馈目标的正负样本比例
7.rankmixer线上时延
8.训练吞吐,样本量,模型dense参数量,MFU计算方法
9.手撕AUC
10.了解哪些归一化手段
全部评论
相关推荐
查看22道真题和解析 点赞 评论 收藏
分享