字节大模型应用二面
八股:
1,ffn层的作用
2,norm层的变体(位置变化pre and post & 算法变化ln and rmsnorm)
3,ffn的激活函数,SwiGlu的公式
写题*2,约15min:
1 计算sqrt(float)
2 计算m^n,m为float,n为正整数,不考虑溢出
写完题又问八股:
1. q,k,v都有啥用,q变得和k一样行不行
2. ffn的两层mlp先升维再降维,升到多少(4*hidden_size)?为啥?
3. kvcache介绍一下,使用了kvcache之后时间复杂度能降低多少?
1,ffn层的作用
2,norm层的变体(位置变化pre and post & 算法变化ln and rmsnorm)
3,ffn的激活函数,SwiGlu的公式
写题*2,约15min:
1 计算sqrt(float)
2 计算m^n,m为float,n为正整数,不考虑溢出
写完题又问八股:
1. q,k,v都有啥用,q变得和k一样行不行
2. ffn的两层mlp先升维再降维,升到多少(4*hidden_size)?为啥?
3. kvcache介绍一下,使用了kvcache之后时间复杂度能降低多少?
全部评论
相关推荐