Megatron-lm 计算tp值

给定模型参数:
模型层数l
模型维度d_model
输入长度seq_len
注意力头head

怎么计算tp
全部评论
感觉是和注意力头有关 求答案🤔
点赞
送花
回复
分享
发布于 04-14 00:47 北京

相关推荐

美团 大模型应用后端开发 基础是n*15.5+6,现在谈的感觉年包会比华为高的
点赞 评论 收藏
转发
3 收藏 评论
分享
牛客网
牛客企业服务