字节TikTok大模型算法实习一面

继续来分享下最近的面经~欢迎友好讨论,信息共享
1.实习介绍
2.为什么2.5-7B的结果比3-8B的好
3.一些训练的策略(分片等
4.大模型训练和推理的区别
5.训练时除了最终的准确率还看哪些指标
6.transformer的self-attention过程中,tensor 形状怎么变化?
7.手撕:实现queue
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务