首页 > 试题广场 >

在张量并行推理中,Attention层的all-reduce

[单选题]
在张量并行推理中,Attention层的all-reduce通信发生在什么时候?
  • 每次forward pass的开始
  • 输出线性层(o_proj)计算完各GPU的部分结果后,进行all-reduce聚合
  • 计算softmax之前
  • KV Cache更新之后

这道题你会答吗?花几分钟告诉大家答案吧!