增加注意力头的数量以提升模型容量
让多个Query头共享同一组Key-Value头,减少KV Cache显存占用
使用单个Key-Value头服务所有Query头
移除Value投影矩阵以降低计算量
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题