商汤算法岗一面面筋
主包被拷打得体无完肤…这就是技术厂的强度吗?
面试官看着很和蔼,就是问题相当刁钻,问得主包汗流浃背…
1.怎么优化显存?
2.transformer中的注意力机制、为什么用softmax、为什么用点积:余弦相似度不行吗?
3.PT SFT RL的关系?可以互相替代吗?
4.batch size调整过吗?lr有调整过吗?两者需要一起调整吗?
5.LoRA原理?数学原理?
6.文档去重?
手撕代码(一道浅拷贝,一道hot100中等题)
反问环节。主包太菜了觉得二面无望,没问进去能干什么,问了我应该如何改进…
总时长:1h20m