字节TikTok大模型算法实习一面
继续来分享下最近的面经~欢迎友好讨论,信息共享
1.实习介绍
2.为什么2.5-7B的结果比3-8B的好
3.一些训练的策略(分片等
4.大模型训练和推理的区别
5.训练时除了最终的准确率还看哪些指标
6.transformer的self-attention过程中,tensor 形状怎么变化?
7.手撕:实现queue
1.实习介绍
2.为什么2.5-7B的结果比3-8B的好
3.一些训练的策略(分片等
4.大模型训练和推理的区别
5.训练时除了最终的准确率还看哪些指标
6.transformer的self-attention过程中,tensor 形状怎么变化?
7.手撕:实现queue
全部评论
相关推荐
查看9道真题和解析 点赞 评论 收藏
分享