被横向挂了,希望发出来对大家有帮助!1. 部署一个模型以及推理一个模型分别用到的参数量怎么估算2. 模型prefill和decoding的区别了解吗?KV cache的大小是多少,怎么算3. Deepspeed框架中zero 1,2,3的区别是什么?分别优化了什么4. 了解Deepspeed的原理吗?假设对矩阵A×B这个运算,给4张卡,简述是如何分配矩阵A,B参数并在显卡中进行交互来达到节省显存的效果的5. 模型中的一些超参数了解吗?Temperature的数学原理是什么?Temperature,Top-k,Top-p三个参数作用的顺序是什么?6. 了解softmax函数吗?7. 了解过通信算子吗?