商汤算法大模型一面-实习面经
继续来分享下之前的面经~欢迎友好讨论,信息共享
1.怎么优化显存?
2.transformer中的注意力机制、为什么用softmax、为什么用点积:余弦相似度不行吗?
3.PT SFT RL的关系?可以互相替代吗?
4.batch size调整过吗?lr有调整过吗?两者需要一起调整吗?
5.LoRA原理?数学原理?
6.文档去重?
手撕代码(一道浅拷贝,一道hot100中等题)
1.怎么优化显存?
2.transformer中的注意力机制、为什么用softmax、为什么用点积:余弦相似度不行吗?
3.PT SFT RL的关系?可以互相替代吗?
4.batch size调整过吗?lr有调整过吗?两者需要一起调整吗?
5.LoRA原理?数学原理?
6.文档去重?
手撕代码(一道浅拷贝,一道hot100中等题)
全部评论
相关推荐
查看25道真题和解析 点赞 评论 收藏
分享