无论文——小鹏汽车

4月份成立的基础模型组,对标qwen deepseek等,一千张卡,20人用

目前在做后训练,后面会做预训练

手写一个MHA

重点考察了qkv的维度转换

输入维度 batchsize,sequence lenth, emb_dim

reshape + permute后的维度,3,batchsize,num_head,sequence length,head_dim

qkv = self.qkv(x).reshape(batchsize,sequence length,3,num_head,head_dim).permute(2,0,3,1,4)
q,k,v=qkv[0],qkv[1],qkv[2]

全部评论
专业性很强
点赞 回复 分享
发布于 今天 12:22 江苏

相关推荐

昨天 01:06
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务