字节大模型应用二面

八股:
1,ffn层的作用
2,norm层的变体(位置变化pre and post & 算法变化ln and rmsnorm)
3,ffn的激活函数,SwiGlu的公式

写题*2,约15min:
1 计算sqrt(float)
2 计算m^n,m为float,n为正整数,不考虑溢出

写完题又问八股:
1. q,k,v都有啥用,q变得和k一样行不行
2. ffn的两层mlp先升维再降维,升到多少(4*hidden_size)?为啥?
3. kvcache介绍一下,使用了kvcache之后时间复杂度能降低多少?
全部评论

相关推荐

哇哇的菜鸡oc:他这不叫校招offer,而是实习offer
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务