八股 1. Llama的Decoder结构、位置编码有什么改进?2. 三角函数位置编码和ROPE的区别?他们是怎么实现不同的功能?3. 介绍一下RLHF流程,包括哪几步4. llm有哪些评估指标?如何评估模型?5. lora原理细节,为什么可以加速?什么是秩?6. 介绍下Reward model7. dpo训练的损失函数和训练目标8. 不做DPO,只做SFT可以吗?9. Deepseek中SFT冷启动了解吗?手撕10. 给定长度为 n+1 的数组 nums,其中元素取值范围为 [1, n],求唯一的重复数(力扣287)。11. 手写多头注意力MHA。