Sugon后端 面经

1.自我介绍
2.介绍项目
3.介绍一下Transformer
4.为什么当前大型语言模型(LLM)普遍采用Decoder-only架构
5.Attention的计算公式
6.为什么在要对 attention进行scaled
7.介绍一下常用的分布式策略和切割参数
8.这几个通信量是怎么排序的
9.介绍一下分布式训练的Zero优化策略
10.为什么decoder部分要Mask
11.讲一讲你了解的智能指针
12.三个智能指针的区别
13.完美转发
14.遇到内存泄露怎么调试
15.malloc和new的区别
16.你常用的标准库有哪些
17.list,vector,map的应用场景与复杂度
18.怎么判断链表有没有环
19.Cuda编程了解吗
20.pytorch你用过那些方法
21.有没有对pytorch底层实现进行修改或重写
22.并行编程,异步编程你怎么做的
22.怎么优化并行处理中的空泡(Bubble)现象
23.讲一讲MOE模型,有哪几种算法
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务