AI Infra面经 攒人品版

继续来分享下之前的面经~欢迎友好讨论,信息共享
1️⃣算法题:手撕内存池(要求支持类似new Foo[], delete []功能),c++如何比较两个float是否相等,LRU,岛屿个数,二叉树的层序遍历,hamming weight,k-coverage intervals

2️⃣torch手撕题: LoRA adapter

3️⃣cuda手撕题:
1- 支持torch broadcast的4D tensor的elementwise mul
2- A: (1, 256),  B: (256, 128),  C: (128, 256) ,计算 (A * B) * C
3- Embedding Sparse Feature Pooling:A是 100 万个离散 ID(0~999),B是 100 万个float,计算个长度为1000的float数组C,C[i] = \sum_{j s.t. A[j] = i} B[j]

4️⃣ai infra或算法八股:
1- llm的知识蒸馏放在预训练做是否合适
2- Hopper TMA的优点,调用方式,是否需要经过L1
3- Flash Attention v2为什么外层对Q循环,Flash Decoding的combine kernel耗时占比大概是多少
4- Mooncake kv-cache centric的PD分离
5- Dit的推理框架设计思路和LLM的有什么异同
6- 分析MLA decode的计算访存比,它和seqlen、batch size是否相关
7- diffusion model的训练和推理步骤,推理num_inference_steps为40时,为什么训练的timesteps仍要设成1000
8- 介绍dLLM,如何看待它和AR的区别
9- torch.repeat 和 torch.expand的区别
10- torchrun的启动参数有哪些,如何在Linux上批量kill包含torchrun的进程
全部评论

相关推荐

昨天 19:16
已编辑
门头沟学院 Java
base北京,团队直招流程迅速。硬件资源充足,技术氛围浓厚,业务场景丰富,有竞争力的薪资+免费公寓+餐补(优秀候选人可额外推荐为TGT实习生),鼓励实习生发paper。主要参与LLM/CTR模型的训练性能优化,包括但不限于稀疏embedding模型优化,多智能体RL/RL训练性能优化,多模态大模型训练性能优化,算子性能优化,分布式通信优化,流水线并行优化等。欢迎有意向的同学沟通,********************满足以下条件的候选人优先考虑:1、可实习6个月以上;2、工程能力优秀,在知名开源项目有贡献;3、有系统/AI顶级会议论文发表经验(如SIGCOMM、NSDI、SC、ASPLOS、ICLR、ICML等);官方JD如下:【岗位职责】1、参与LLM/多模态/生成式推荐模型训练引擎的设计、开发和优化,解决训练过程中的技术和性能问题;2、针对大规模异构分布式算力和计算进行优化,提高计算效率和可扩展性;3、深入京东零售核心算法业务,分析业务功能和性能痛点,设计合理的技术优化方案并确保实际落地;4、参与制定核心业务项目计划和需求分析,确保项目按时交付和达到高质量标准;【岗位要求】1、具备扎实的数据结构与算法功底,熟练掌握Python/C++编程技巧,具有良好的编程习惯以及工程与沟通能力;2、熟悉至少一种主流深度学习编程框架(Tensorflow/Pytorch)和分布式计算引擎(Megatron/Deepspeed),熟悉其底层架构和实现机制,有分布式系统开发和调优经验优先;3、掌握深度学习基础知识,了解常用的深度学习模型和算法,了解LLM基础理论和方法;4、熟悉CUDA编程模型和GPU加速技术等,有基于国产化芯片(如华为晟腾、寒武纪等)的深度学习框架开发和优化经验优先;5、熟悉业界主流的模型优化和调优方法,有对深度学习模型进行性能优化和效率提升的经验;6、实习期3个月以上;
点赞 评论 收藏
分享
评论
1
11
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务