混元ai infra面经(惨败版

给我面没招了,觉得自己好菜...
1. 先问fp4
2. 量化的矩阵乘维度
3. 先问硬件怎么做量化的。
4. 量化的硬件需要啥
5. 问了一些gpu的问题。
6. 怎么分析系统瓶颈。
7. 问了flash attn。
7.1 有什么用?
7.2 矩阵维度推导。
7.3 k包不包含q的那个1
7.4 多头多batch怎么并行
全部评论
手撕flashattention吗?这么夸张?
点赞 回复 分享
发布于 03-09 16:49 台湾
主包怎么回答的
点赞 回复 分享
发布于 03-06 10:49 湖北

相关推荐

昨天 19:16
已编辑
门头沟学院 Java
base北京,团队直招流程迅速。硬件资源充足,技术氛围浓厚,业务场景丰富,有竞争力的薪资+免费公寓+餐补(优秀候选人可额外推荐为TGT实习生),鼓励实习生发paper。主要参与LLM/CTR模型的训练性能优化,包括但不限于稀疏embedding模型优化,多智能体RL/RL训练性能优化,多模态大模型训练性能优化,算子性能优化,分布式通信优化,流水线并行优化等。欢迎有意向的同学沟通,********************满足以下条件的候选人优先考虑:1、可实习6个月以上;2、工程能力优秀,在知名开源项目有贡献;3、有系统/AI顶级会议论文发表经验(如SIGCOMM、NSDI、SC、ASPLOS、ICLR、ICML等);官方JD如下:【岗位职责】1、参与LLM/多模态/生成式推荐模型训练引擎的设计、开发和优化,解决训练过程中的技术和性能问题;2、针对大规模异构分布式算力和计算进行优化,提高计算效率和可扩展性;3、深入京东零售核心算法业务,分析业务功能和性能痛点,设计合理的技术优化方案并确保实际落地;4、参与制定核心业务项目计划和需求分析,确保项目按时交付和达到高质量标准;【岗位要求】1、具备扎实的数据结构与算法功底,熟练掌握Python/C++编程技巧,具有良好的编程习惯以及工程与沟通能力;2、熟悉至少一种主流深度学习编程框架(Tensorflow/Pytorch)和分布式计算引擎(Megatron/Deepspeed),熟悉其底层架构和实现机制,有分布式系统开发和调优经验优先;3、掌握深度学习基础知识,了解常用的深度学习模型和算法,了解LLM基础理论和方法;4、熟悉CUDA编程模型和GPU加速技术等,有基于国产化芯片(如华为晟腾、寒武纪等)的深度学习框架开发和优化经验优先;5、熟悉业界主流的模型优化和调优方法,有对深度学习模型进行性能优化和效率提升的经验;6、实习期3个月以上;
点赞 评论 收藏
分享
评论
3
20
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务