晋级面霸 - 个人主页动态 - 牛客网

发布(90) 评论刷题收藏

05-14 18:01

山东大学算法工程师

可惜没有南方的朋友，不然我肯定送他一箱我们山东的大樱桃吃

0 点赞评论收藏

分享

03-25 12:12

山东大学算法工程师

字节暑期大模型开发一面 50min

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.实习拷打2.项目拷打3.论文拷打4.了解RAG，微调，推理这些吗5.介绍一下微调，有没有做过微调，如果让你做能做吗6.选一个项目介绍一下（rpc），为什么选择做rpc项目7. 介绍一下主流的rpc框架的特点8.序列化是什么，主要作用是什么（压缩），为什么不用主流的序列化方式9.对比一下http和tcp，为什么这个rpc底层用tcp协议，不用http10.实习是在公司还是实验室，实习有什么收获11.介绍一下你的本地生活项目，滑动窗口限流，乐观锁，MQ

查看11道真题和解析

0 点赞评论收藏

分享

03-23 04:25

山东大学算法工程师

26校招腾讯LLM算法一面 1h

继续来分享下之前的面经~欢迎友好讨论，信息共享八股1. 为什么用decode-only，相比于encoder-only和encoder-decoder的区别；2. 对attention的了解、MHA、GQA这些；3. 分布式训练方式deepspeed这些；4. ppo的了解，grpo，dapo的了解，grpo可能存在哪些劣势5. ppo相比于之前的RL方法的创新点coding将一个整数拆成k个和的形式，求最大乘积

查看6道真题和解析

0 点赞评论收藏

分享

03-21 16:30

山东大学算法工程师

智谱大模型算法日常实习一面 1h

整体面试还是不错的，攒人品中～1.项目拷打2.实习经历介绍3.LoRa4.显卡资源如何，如何解决资源不足的问题5.效果如何测评6.有没有测常见的 benchmark7.详细介绍快手实习8.论文介绍9.DeepSpeed zero 策略10.除了 zero 外还有没有其他策略，也就是 offload 和 infinity11.batchnorm 和 layer norm 的区别，主要是 batchnorm 和 dropout12.model.train() 和 model.eval()的区别13.dropout 测试时如何使用的14.Coding1：买卖股票的最佳时机15.Coding2：字母异位词分组

查看15道真题和解析

0 点赞评论收藏

分享

03-19 19:30

山东大学算法工程师

字节推荐算法日常实习二面凉经

被横向挂了，希望发出来对大家有帮助！1. 项目拷打2. 什么情况下，MAP的损失函数可以用NMSE来计算？（高斯噪声）3. 手写Multi-head Attention4. Attention的复杂度是多少？5. AUC是什么？6. 推荐算法了解哪些？7. 协同过滤的概念是什么？8. 如果是一种普适性很强的物品（如：新华字典），怎么设计指标对它降权？9. AUC怎么推广到非二分类问题？怎么快速计算AUC？10. bn训练阶段和测试阶段区别，详细讲讲原理11. dropout原理，训练阶段和测试阶段区别，为什么

查看11道真题和解析

0 点赞评论收藏

分享

03-18 23:50

山东大学算法工程师

米哈游大模型算法一面日常实习

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.介绍一下项目2.讲解MLA和GQA3.ROPE位置编码是什么，为什么可以体现相对位置，有什么缺点，怎么外推4.代码写GQA，可以搜索网络查函数

0 点赞评论收藏

分享

03-10 12:47

山东大学算法工程师

美团实习llm应用算法二面

攒人品中，祝大家都能拿到满意的Offer！1.项目深挖2-提问paper的设计，baseline以及RL的思路讲解3-问：DAPO相比于GRPO改进了什么4-提问过往实习经历的细节5-开放式探讨：现在的LLM， SFT和RL 到底应该选择哪一个？6-代码题目：反转链表

查看6道真题和解析

0 点赞评论收藏

分享

03-05 10:35

山东大学算法工程师

商汤算法大模型一面-实习面经

继续来分享下之前的面经~欢迎友好讨论，信息共享1.怎么优化显存？2.transformer中的注意力机制、为什么用softmax、为什么用点积：余弦相似度不行吗？3.PT SFT RL的关系？可以互相替代吗？4.batch size调整过吗？lr有调整过吗？两者需要一起调整吗？5.LoRA原理？数学原理？6.文档去重？手撕代码（一道浅拷贝，一道hot100中等题）

0 点赞评论收藏

分享

03-03 12:20

山东大学算法工程师

面经总结 AI infra 攒人品

算法题： 1- 快排，寻找两个正序数组的中位数，下一个排列，二叉树中的最大路径和，Path Sum III2- 给定若干点的数轴坐标数组和固定数量的等长线段，问该线段最少要多长才能覆盖所有点3- 前k个高频字符串，词频一样时按字典序升序排列4- 给定初始字符串s，每次将字符串向右旋转一次，并将旋转后的字符串拼接到原字符串的末尾，每次操作都会使字符串的长度变为原来的两倍，求计算出无限扩展后的字符串中第 N个位置的字符5- 两根手指放在26个小写字母组成的键盘上，最少移动多少距离才能敲出给定的字符串sorch手撕题：MHA * 3，Flash Attention v1，flow matching model采样的伪代码ai infra或算法八股：1- flow matching模型预测的是什么，怎么理解conditional velocity (conditioned on data sample x0)2- 如何计算QwenImage的time shift3- 介绍Flash Attention的原理和实现思路4- GPU matrix transpose使用shared memory的好处5- CPU按列遍历一个行优先的矩阵相比按行遍历为什么性能会变差，具体是因为哪个性能指标变差导致的6- weight-only量化有哪些，实现weight-only量化cuda kernel时如何优化访存，是否了解Marlin kernel7- Megatron SP的实现方式8- DeepSpeed ZeRO stage1和stage 2的通信量区别，论文和代码实现有没有gap9- 多GPU通信时NVSHMEM和NVLink的区别

查看15道真题和解析

0 点赞评论收藏

分享

03-03 00:25

山东大学算法工程师

AI infra 蔚来汽车实习面经

发一下问题给大家参考，攒攒人品！有面试过同岗的朋友欢迎评论区交流1. 项目交流2.  Shared Memory Bank Conflict及解决办法3. 同一Warp内不同线程的访问约束4. 广播机制（Broadcast）6. 四种Cast转换的区别与应用场景（reinterpret_cast等）7. 父类转子类的安全性问题与内存布局约束手撕：01背包问题 vs 完全背包问题

查看7道真题和解析

0 点赞评论收藏

分享

02-26 14:20

山东大学算法工程师

安克具身智能算法面经

感觉良好，发下面经攒攒人品八股:RL：1.说一下策略梯度公式2.为什么可以对期望求导3.如何解决方差大的问题4.baseline为什么能降低方差，引入后会不会产生偏执？5.简单介绍一下Baseline类型6.机械臂抓取用什么baseline规控mpc：1.问：说一下MPC的原理，和LQR PID有什么区别2.MPC实时应用中如何保证求解速度，求解失败怎么办求解速度：１.先考虑非线性转换成线性和凸优化２.优化求解器选择，如果是小型 QP且快速响应的话一般来说，会用 qpOASES，如果是稀疏的大规模 QP（比如自动驾驶的 MPC），OSQP 更合适3.  算法代码上优化，稀疏矩阵和并行计算

0 点赞评论收藏

分享

02-12 00:35

山东大学算法工程师

得物推荐算法实习一面 1h（深度学习

1.平时接触过哪些深度学习模型?有用过推荐相关的模型吗?2.ESSM中CVR任务的样本空间是什么?3.Weight decay解释一下原理?4.对于优化器有哪些了解，比如Adam，AdamWSGD等是否知道梯度更新的计算过程?5.HSTU中注意力计算过程和Transformer的注意力计算过程的区别6.HSTU中的工程优化了解吗?有了解其他生成式模型吗?7.注意力计算中主要是矩阵计算比如QK，是线性变换，有非线性变换的过程吗?8.SiLU激活函数和ReLU激活函数的区别?9.为什么使用InfoNCE loss，和NCE loss，Samplesoftmax loss 有什么差异10.RQ-VAE的损失函数计算中，梯度阻断是怎么做的?11.除了RQ-VAE 还了解其他的VAE模型吗?12.NDCG指标的计算过程是?NDCG指标中Normalize的过程体现在哪里?

查看12道真题和解析

0 点赞评论收藏

分享

02-11 10:25

山东大学算法工程师

快手推荐算法实习二面

1、你项目中transformer的loss是什么?2、方案二项目中transformer实现召回的原理是什么?输入输出loss都是什么?3、UCF、ICF的原理是什么讲一下4、ICF有什么缺点?实际使用的时候有什么不足5、如果有一个非常喜欢点击的用户，另一个是非常不喜欢点击的用户，哪个用户根据icf的推荐是更准确的?6、transformer的attention 公式7、多分类交叉熵和二分类交叉熵公式8、线性回归的损失函数无手撕

查看8道真题和解析

0 点赞评论收藏

分享

02-11 00:25

山东大学算法工程师

京东26校招推荐算法一面有惊无险

面试了一个半小时，拷打的很细，还问了一堆八股，汗流浃背1.简历拷打2.介绍一下xgboost和lgb的区别？并行化的差异？lgb的有点在哪里？3.你还了解那些bagging算法？和boosting stacking有啥区别？4.ppo公式写一下5.transformer中的decoder介绍一下，作用是啥。6.代码手撕一个两层的神经网络，要求自己求梯度反问

查看4道真题和解析

0 点赞评论收藏

分享

02-10 20:30

山东大学算法工程师

字节Tiktok直播多模态一面面麻了

发一下问题给大家参考，攒攒人品！！！1.项目是基于自己的兴趣，还是follow现成项目2.这个项目是主要是为了解决什么问题3.训练是基于 torch 写的，还是用现有的框架4.保存加载checkpoint怎么实现的5.项目怎么做到能跑起来？遇到什么困难？怎么解决？6.Qwen tokenizer 中并没有图像相关的 token，那么在构建多模态输入时，应该如何在文本序列中表示图像位置8.占位 token 在经过 tokenizer 和embedding 后，模型是否能够稳定地识别它的存在？它在 embedding 空间中是否具有明确的语义位置，还是只是一个噪声 token9.你用什么指标测模型10.Deepspeed11.zero12312.Zero3 是模型并行吗13.8 卡环境下使用 ZeRO-3 训练时，数据并行度是多少14.Megatron15.8 卡环境下使用Megatron训练时，数据并行度是多少16.训过PPO吗17.PPO 的reward model是怎么训的18.PPO 再往底层学了吗？讲一下蒙特卡洛和 TD error 的区别19.为什么他们是两个极端20.PPO 加载了哪几个模型？哪些模型是freeze，哪些是激活的？以及它每个模型做了什么21.你的PPO 的 critic model 是怎么初始化的22.LLM场景下，传统强化学习中的核心概念（Actor、Environment、State、Action、Reward、Value）分别对应什么23.R和V的关系？Value 函数在估计什么量24.DPO和PPO的关系25.DPO加载几个模型26.DPO的推导27.重要性采样两个pi的比值落实到代码层面是什么计算的28.LLaVA-one-vision、LLaVA-NeXT29.llava怎么实现动态分辨率的30.qwenvl系列是如何实现动态分辨率的31.了解qwenvl系列吗32.qwenvl在旋转位置编码上的改进33.场景题：在视频多模态模型（如 Qwen-3B / Qwen-Omni）中，模型存在 video grounding 不准确和“幻觉定位”的问题。如何系统性地设计数据、训练策略、评估与约束机制，来有效提升模型的事件定位准确性34.根号dk的作用35.手撕self-attention

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务