先是自我介绍,聊了聊项目和之前的实习。八股:1. 大模型预测 token 的损失是怎么算的?有哪几种常见的损失函数?2. 讲讲大模型的思维链技术?3. 聊聊 Transformer?它有啥优势?位置编码是咋做的,有啥改进?ROPE 是啥?Transformer 是怎么把文本转成 token 的?4. Lora 微调八股:矩阵 A, B 怎么初始化?为啥 B 要初始化成 0,A 不行吗?啥是矩阵的秩?5. Bert 和 GPT 有啥区别?大模型时代,小模型还有用吗?6. MHA 是啥?有啥改进?讲讲 DeepSeek 的 MLA?7. MOE 一般加在哪?从训练和推理的角度看,MOE 有啥好处?...