Megatron-lm 计算tp值
给定模型参数:
模型层数l
模型维度d_model
输入长度seq_len
注意力头head
怎么计算tp
模型层数l
模型维度d_model
输入长度seq_len
注意力头head
怎么计算tp
全部评论
感觉是和注意力头有关 求答案🤔
送花
回复
分享
相关推荐
点赞 评论 收藏
转发
不愿透露姓名的神秘牛友
05-12 22:37
点赞 评论 收藏
转发