1⃣一面时间:9.12 时长:1h code:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股 1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的) 2.训练/微调一个LLM的流程? 3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero) 4.了解强化学习吗,跟SFT有什么区别? 5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到 2⃣二面时间:9.14 时长:1h 八股 1.写一下 ...