百度文心一言nlp算法实习一面
1. 介绍transformer
2. 介绍self-attention的计算公式,为什么除以根号下dk
3. 介绍multi-head attention,为什么要用的多头的注意力机制
4. llama中的transformer跟普通的有什么改进
5. 为什么要使用 rms-norm
6. 排序用的point-wise还是pair-wise,为什么
手撕:最长单调上升子序列
2. 介绍self-attention的计算公式,为什么除以根号下dk
3. 介绍multi-head attention,为什么要用的多头的注意力机制
4. llama中的transformer跟普通的有什么改进
5. 为什么要使用 rms-norm
6. 排序用的point-wise还是pair-wise,为什么
手撕:最长单调上升子序列
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
