被横向挂了,希望发出来对大家有帮助!1.项目介绍2.训练样本大概多少条3.用户反馈怎么做的4.MOE 激活的分布,怎么确定是 MOE 的效果而不是单纯 ffn 参数量增大的效果5.有考虑用别的强化学习的方法吗6.dpo 的公式是什么7. grpo 了解吗8.kvcache 怎么做的,了解大模型中别的提高效率的办法吗9.sgd 是什么, Adam 相对于 sgd 改进了什么位置编码10.手撕 transformer 并计算 flops 和内存开销