面试完就知道gg,简直是一个小时的压力面🥲 1. 自我介绍 2. 研究生阶段项目介绍和研究生课程有哪些(直接给我懵了) 3. transformer模型结构 4. self-attention为什么是QKV三个,作者是依据什么构造出来的 5. 梯度消失和梯度爆炸定义,用什么解决 6. Bert的embedding 7. 大模型LLM和transformer的区别,LLM好在哪里 8. LLama模型结构 9. 位置编码方式有几种,为什么旋转位置编码好,好在哪里 10. 为什么GPT采用decoder-only架构,encoder-only为什么不应该更好? 11. 自己的项目和大模型的结合,...