百度文心一言nlp算法实习一面

1. 介绍transformer
2. 介绍self-attention的计算公式,为什么除以根号下dk
3. 介绍multi-head attention,为什么要用的多头的注意力机制
4. llama中的transformer跟普通的有什么改进
5. 为什么要使用 rms-norm
6. 排序用的point-wise还是pair-wise,为什么

手撕:最长单调上升子序列
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务