遂原科技Ai应用开发一面 攒人品
发一下问题给大家参考,攒攒人品!
1.实习拷打
2.项目拷打
3.量化策略,为什么选择int8量化,A100和H100对不同量化的支持,是量化模型权重还是只是kvcache,scale如何选择,有没有测精度损失
4.triton算子实现逻辑,分块等策略
5.对比的官方baseline选择,数据类型
6.压力质疑提升数据,问attention占整个系统端到端延迟百分比
7.数据提升怎么来的,动态分块策略,算子配置等
8.有没有想过用CUDA开发算子,为什么使用
triton
9.有没有做过profile,测出来一些性能如何,比如memory吞吐,一些后续优化思路
10.decode阶段是 compute bound还是memorybound,kvcache量化提升的是什么
11.A100理论带宽上限
1.实习拷打
2.项目拷打
3.量化策略,为什么选择int8量化,A100和H100对不同量化的支持,是量化模型权重还是只是kvcache,scale如何选择,有没有测精度损失
4.triton算子实现逻辑,分块等策略
5.对比的官方baseline选择,数据类型
6.压力质疑提升数据,问attention占整个系统端到端延迟百分比
7.数据提升怎么来的,动态分块策略,算子配置等
8.有没有想过用CUDA开发算子,为什么使用
triton
9.有没有做过profile,测出来一些性能如何,比如memory吞吐,一些后续优化思路
10.decode阶段是 compute bound还是memorybound,kvcache量化提升的是什么
11.A100理论带宽上限
全部评论
相关推荐
03-04 11:37
浙江大学 算法工程师 牛客大王八:实习400多天确实亏啊,字节真不敢赌,要不你就想办法先签下来阿里的三方然后说有点事学校然后去字节干几个月看看给不给转正
点赞 评论 收藏
分享

查看8道真题和解析