tp建议去吗
点赞 评论

相关推荐

继续来分享下之前的面经~欢迎友好讨论,信息共享1️⃣算法题:手撕内存池(要求支持类似new Foo[], delete []功能),c++如何比较两个float是否相等,LRU,岛屿个数,二叉树的层序遍历,hamming weight,k-coverage intervals2️⃣torch手撕题: LoRA adapter3️⃣cuda手撕题:1- 支持torch broadcast的4D tensor的elementwise mul2- A: (1, 256),  B: (256, 128),  C: (128, 256) ,计算 (A * B) * C3- Embedding Sparse Feature Pooling:A是 100 万个离散 ID(0~999),B是 100 万个float,计算个长度为1000的float数组C,C[i] = \sum_{j s.t. A[j] = i} B[j]4️⃣ai infra或算法八股:1- llm的知识蒸馏放在预训练做是否合适2- Hopper TMA的优点,调用方式,是否需要经过L13- Flash Attention v2为什么外层对Q循环,Flash Decoding的combine kernel耗时占比大概是多少4- Mooncake kv-cache centric的PD分离5- Dit的推理框架设计思路和LLM的有什么异同6- 分析MLA decode的计算访存比,它和seqlen、batch size是否相关7- diffusion model的训练和推理步骤,推理num_inference_steps为40时,为什么训练的timesteps仍要设成10008- 介绍dLLM,如何看待它和AR的区别9- torch.repeat 和 torch.expand的区别10- torchrun的启动参数有哪些,如何在Linux上批量kill包含torchrun的进程
查看21道真题和解析
点赞 评论 收藏
分享
算法题: 1- 快排,寻找两个正序数组的中位数,下一个排列,二叉树中的最大路径和,Path Sum III2- 给定若干点的数轴坐标数组和固定数量的等长线段,问该线段最少要多长才能覆盖所有点3- 前k个高频字符串,词频一样时按字典序升序排列4- 给定初始字符串s,每次将字符串向右旋转一次,并将旋转后的字符串拼接到原字符串的末尾,每次操作都会使字符串的长度变为原来的两倍,求计算出无限扩展后的字符串中第 N个位置的字符5- 两根手指放在26个小写字母组成的键盘上,最少移动多少距离才能敲出给定的字符串sorch手撕题:MHA * 3,Flash Attention v1,flow matching model采样的伪代码ai infra或算法八股:1- flow matching模型预测的是什么,怎么理解conditional velocity (conditioned on data sample x0)2- 如何计算QwenImage的time shift3- 介绍Flash Attention的原理和实现思路4- GPU matrix transpose使用shared memory的好处5- CPU按列遍历一个行优先的矩阵相比按行遍历为什么性能会变差,具体是因为哪个性能指标变差导致的6- weight-only量化有哪些,实现weight-only量化cuda kernel时如何优化访存,是否了解Marlin kernel7- Megatron SP的实现方式8- DeepSpeed ZeRO stage1和stage 2的通信量区别,论文和代码实现有没有gap9- 多GPU通信时NVSHMEM和NVLink的区别
查看15道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务