flash attention, ppo, dpo, rlhf, 不同模型的embedding, (bert,bart, T5,chatglm)的预训练有什么区别,rope是什么?MQA和GQA了解多少。等等。还有很多
点赞 3

相关推荐

牛客网
牛客企业服务