1.项目介绍2.讲讲你对 transformer 的了解3.有哪些常用的解码策略, topp 和 topk 的具体细节,以及实现上的差别4. 意图分流的 agent 怎么做微调的,用了多少数据5.如何做 embedding 微调的,如何构造正负样例,训练的 loss 是什么6.RAG有哪些可优化的地方7.你的 RAG 项目中用到了 agent 吗,一般 agent 会用在RAG 链路中的哪些部分8.做 sft 时是怎么做数据配比的,参数具体怎么设置的9.RLHF的流程,有没有训过 PPO10. deepseed 的原理,zero1,2,3怎么做的11.了解过排序模型吗,讲几个经典的排序模型吧12.说一下 vllm 部署8*7B的 MOE 模型每秒大概能推多少token13.对比学习了解吗,讲一下(比较突然,不知道为啥要问)14.code :实现rand5到rand7