Sugon后端 面经
1.自我介绍
2.介绍项目
3.介绍一下Transformer
4.为什么当前大型语言模型(LLM)普遍采用Decoder-only架构
5.Attention的计算公式
6.为什么在要对 attention进行scaled
7.介绍一下常用的分布式策略和切割参数
8.这几个通信量是怎么排序的
9.介绍一下分布式训练的Zero优化策略
10.为什么decoder部分要Mask
11.讲一讲你了解的智能指针
12.三个智能指针的区别
13.完美转发
14.遇到内存泄露怎么调试
15.malloc和new的区别
16.你常用的标准库有哪些
17.list,vector,map的应用场景与复杂度
18.怎么判断链表有没有环
19.Cuda编程了解吗
20.pytorch你用过那些方法
21.有没有对pytorch底层实现进行修改或重写
22.并行编程,异步编程你怎么做的
22.怎么优化并行处理中的空泡(Bubble)现象
23.讲一讲MOE模型,有哪几种算法
2.介绍项目
3.介绍一下Transformer
4.为什么当前大型语言模型(LLM)普遍采用Decoder-only架构
5.Attention的计算公式
6.为什么在要对 attention进行scaled
7.介绍一下常用的分布式策略和切割参数
8.这几个通信量是怎么排序的
9.介绍一下分布式训练的Zero优化策略
10.为什么decoder部分要Mask
11.讲一讲你了解的智能指针
12.三个智能指针的区别
13.完美转发
14.遇到内存泄露怎么调试
15.malloc和new的区别
16.你常用的标准库有哪些
17.list,vector,map的应用场景与复杂度
18.怎么判断链表有没有环
19.Cuda编程了解吗
20.pytorch你用过那些方法
21.有没有对pytorch底层实现进行修改或重写
22.并行编程,异步编程你怎么做的
22.怎么优化并行处理中的空泡(Bubble)现象
23.讲一讲MOE模型,有哪几种算法
全部评论
相关推荐
点赞 评论 收藏
分享
查看24道真题和解析