被挂了,希望发出来对大家有帮助!1.数据是哪里来的?包括SFT部分以及DPO的数据2.自己微调的项目有实际的意义吗有什么应用场景3.介绍C-EVALbenchmark这个数据集中只有医学领域的数据吗4.文本怎么做聚类文本是怎么转成向量的(其实就是大模型embedding的过程)5.大模型都怎么做训练 包括哪些流程6.预训练怎么做什么样的文本预训练的loss7.预训练和SFT的区别SFT的loss8.DPO PPO GRPO区别于关系9.DPO数据是什么样的怎么生成的10.DPO要推理几次才能计算损失11.DPO为什么可以节省显存12.GRPO 为什么可以替代PPO13.什么是重要性采样数学公式14.奖励和优势有什么样的关系15.假如重要性采样值太大了怎么办 用什么方法 把其限定在一定范围内手撕算法:给了一个非递减数组告诉一个目标值返回数组中是否有两个元素的和等于这个目标值要求不能开辟一个新的数组