Megatron-lm 计算tp值
给定模型参数:
模型层数l
模型维度d_model
输入长度seq_len
注意力头head
怎么计算tp
模型层数l
模型维度d_model
输入长度seq_len
注意力头head
怎么计算tp
全部评论
感觉是和注意力头有关 求答案🤔
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
萨德楽:能进去你就是最牛逼的,不会学就完了 点赞 评论 收藏
分享
找工小学弟:一看内容正想说博主幸运,点进主页一看:双9+阿里云实习+acm银,只能说还是实力太强了
点赞 评论 收藏
分享
