字节大模型推荐算法实习面经
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.介绍rankmixer的做法
2.手撕tokenmixing
3.手撕 MultiHeadSelfAttention
4.介绍为什么rankmixer为什么有效对比attention结构为什么更容易scaling
5.sim序列是怎么做的原始序列有多长GSU怎么做的
6.某些负反馈目标的正负样本比例
7.rankmixer线上时延
8.训练吞吐,样本量,模型dense参数量,MFU计算方法
9.手撕AUC
10.了解哪些归一化手段
1.介绍rankmixer的做法
2.手撕tokenmixing
3.手撕 MultiHeadSelfAttention
4.介绍为什么rankmixer为什么有效对比attention结构为什么更容易scaling
5.sim序列是怎么做的原始序列有多长GSU怎么做的
6.某些负反馈目标的正负样本比例
7.rankmixer线上时延
8.训练吞吐,样本量,模型dense参数量,MFU计算方法
9.手撕AUC
10.了解哪些归一化手段
全部评论
相关推荐
查看8道真题和解析 点赞 评论 收藏
分享
04-23 19:50
电子科技大学 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享