字节大模型算法实习三面 55min
1.问硬件、硬件利用率
2.讲讲deepspeed几个阶段,分别分片什么、代价是什么
3.模型训练时间如何估计
4.DP和DDP的区别
5.最多用过多少张卡
6.训练过程如何做模型监控
7.数据配比怎么量化才是一个好的方案
8.讲一下预训练数据处理
9.预训练和SFT如何评估
10.encoder-decoder、encoder、decoder区别
11.讲一下文本输入大模型到输出的过程
12.decoding策略
13.大模型结构有哪些变化
14.拷打论文
15.手撕:cross-attention
2.讲讲deepspeed几个阶段,分别分片什么、代价是什么
3.模型训练时间如何估计
4.DP和DDP的区别
5.最多用过多少张卡
6.训练过程如何做模型监控
7.数据配比怎么量化才是一个好的方案
8.讲一下预训练数据处理
9.预训练和SFT如何评估
10.encoder-decoder、encoder、decoder区别
11.讲一下文本输入大模型到输出的过程
12.decoding策略
13.大模型结构有哪些变化
14.拷打论文
15.手撕:cross-attention
全部评论
相关推荐
点赞 评论 收藏
分享
01-20 11:07
广东实验中学 算法工程师 点赞 评论 收藏
分享
查看9道真题和解析