1、自我介绍2、训练和推理的并行策略大模型训练和推理常见的并行策略主要有数据并行、张量并行、流水线并行和专家并行。数据并行是每张卡放一份完整模型,不同卡处理不同 batch,然后通过 All-Reduce 同步梯度。它实现简单,但模型太大时单卡放不下。张量并行是把同一层的权重按列或者按行切到多张卡上,每张卡只算一部分,再做通信聚合,适合单层参数特别大的场景。流水线并行是把不同层分配到不同 GPU 上,让不同 micro-batch 像流水线一样流动,能解决单卡放不下完整模型的问题,但会有流水线气泡。专家并行主要出现在 MoE 结构里,不同 token 路由到不同专家,参数量可以很大,但每次只激...