算法打工人阿旺 - 个人主页动态 - 牛客网

发布(157) 评论刷题收藏

昨天 23:00

中山大学算法工程师

阿里夸克实习面经汇总

1.Lora 的相关八股:常见参数、缩放2.有没有做记忆衰退，避免旧数据干扰新任务？3.Deepspeed zero3为什么比zero2更省显存4.训练大模型的框架都有哪些呢5.讲解一下 Flash Attention6.讲解一下 Qwen 的滑动窗口注意力机制，计算量是多少？7.PPO 的损失函数构成。8.讲解一下KL散度。PPO和GRPO的损失函数有哪些区别？9．在高并发查询 Agent 系统中，你会如何优化召回和生成阶段的延迟？10．32B 模型全量微调 和Lora 微调的显存估算11．你们这种模块堆叠的架构是怎么设计视觉问答模块和动作模块的协同逻辑的？12. human feedback 是怎么被 agent 消化吸收的？📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看12道真题和解析

0 点赞评论收藏

分享

11-17 21:15

中山大学算法工程师

2025淘天集团算法岗投递指南

🍓针对今年要参加算法岗秋招的同学，给大家讲解一下淘天集团部门的分布和岗位情况，方便大家认识目前算法岗的招聘现状。[火R]淘天分为阿里妈妈，搜推智能产品事业部和业务技术三大部门。算法岗主要围绕大模型，搜广推，多模态，AIGC，机器学习等方向进行招聘。1️⃣阿里妈妈：有稳定的收入来源，团队氛围和技术都算首屈一指，包括广告算法团队和AIGC团队，分别招聘搜广推算法/大模型算法和AIGC图像/视频生成算法。面向的场景是：搜索，生成式推荐，出价，生成式创作工具等2️⃣搜推智能产品事业部：包括算法技术和未来生活实验室。技术方向广泛，包括搜索推荐的智能化，基座大模型，也包括AI应用比如拍立淘，淘宝问问等。招聘的算法方向是最多的，包括搜广推算法，大模型预训练，大模型应用，生成式搜推，多模态表征，AIGC生成等。部门目标是AI赋能淘宝，推动下一代AI搜推系统的发展。3️⃣业务技术团队：包括AI原生团队，淘宝3D团队，音视频技术团队，供给团队和直播AIGC团队。原生团队和直播AIGC团队招聘面向多模态/AIGC方向。供给团队面向大模型/Agent方向进行招聘。🍓给大家总结一下：如果要收获好的算法岗offer，尽量选择工业界的热门方向去提升自己，比如大模型/多模态/AIGC/生成式搜推，这些方向是未来互联网大厂重点投入的。✴️如果同学想免费规划算法岗学习路线以及了解项目辅导的具体信息，欢迎后台咨询，支持大模型/多模态/搜广推/AIGC等热门方向。

0 点赞评论收藏

分享

11-16 21:25

中山大学算法工程师

百度大模型应用面经

✅一面 1.针对简历上的实习提问。2.kl散度和交叉熵的关系3.LoRA介绍，和全参sft怎么选择？小模型的sft和大模型的LoRA效果对比会是怎么样的？sft数据集如何构建？4.介绍AUC，AUC表达的是什么？5.recall重要的场景下，如果recall很高，precision很低怎么办？6.precision和recall都是什么，不同场景下precision和recall如何关注？哪个更重要？7.手撕-实现shuffle函数。✅二面1.实习项目介绍和提问。2.对一份数据在某个场景下进行分类/识别/检测，用大模型有什么方法可以做？3.如何对AIGC的文本进行评估？4.幻觉如何解决？真实性如何评估？5.RAG过程中索引可以做哪些优化？6.kl散度表示的是什么。7.反思机制是什么做的？为什么要用反思？8.ppo中kl散度的作用。9.手撕kmeans。10.实现一个简单的mlp，从csv读取数据。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看17道真题和解析

0 点赞评论收藏

分享

11-14 22:53

中山大学算法工程师

字节豆包大模型面经

1️⃣一面：1．自我介绍2．选一个做的好的实习或者论文讲一下3．了解 RAG 吗， GraphRAG 的做法4．讲一下 FlashAttention 的思想和做法5．讲一下 RoPE ,目前常用的位置编码还有哪些， Ro PE 有什么优点6．场景题：如果要提升大模型的多轮对话能力，你有哪些可以改进的点7．代码题：56．合并区间2️⃣二面：1．自我介绍，问实习和论文2．实习微调过Qwen2，你说说Qwen2的模型结构吧，Qwen2相比Qwen1做了哪些改进3．为什么现在 Decoder - only 成为大模型的主流架构4．了解过哪些模型训练推理优化的方法5．为什么有了 SFT 之后还需要 RLHF6 .PPO 和 DPO 的主要思想是什么7．代码：23．合并 K 个升序链表3️⃣三面：1．自我介绍，过实习和论文2．了解 Qwen 的结构吗，微调的数据配比是怎样的3．大模型的灾难性遗忘问题怎么解决4．了解 KV cache 吗， GQA 的思想是什么5．场景题：目前有一些专业领域知识（如医疗知识或者法律条文），准备做个智能助手，如何搭建一个 RAG 链路6．开放题：用过豆包吗，觉得目前豆包还存在什么问题7．代码：416．分割等和子集📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看20道真题和解析

0 点赞评论收藏

分享

11-13 22:28

中山大学算法工程师

26届面经|阿里夸克大模型一二面面经

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-12 23:38

中山大学算法工程师

美团大模型算法一二面

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-11 21:00

中山大学算法工程师

一文讲清楚算法岗Offer如何定级

0 点赞评论收藏

分享

11-10 23:04

中山大学算法工程师

大模型训练中的FP16和BF16的区别是什么

✅数值范围 FP16：指数位为5位，数值范围约为±6.1×10−5±6.1×10^{-5}±6.1×10−5到±65504±65504±65504，范围较小，易出现上溢（值超过655046550465504变为无穷大或NaN）或下溢（值小于6e−56e-56e−5被舍为0），导致训练不稳定。BF16：指数位为8位，数值范围与FP32相同，约为±1.2×10−38±1.2×10^{-38}±1.2×10−38到±3.4×1038±3.4×10^{38}±3.4×1038，范围极大，几乎不会发生溢出，训练稳定性更高。✅精度FP16：尾数位为10位，能表示约3-4位小数，精度较高，适合对数值精度要求高的场景。BF16：尾数位为7位，能表示约2-3位小数，精度略低，但在大模型训练中通常足够，且可通过混合精度训练弥补精度损失。✅训练稳定性FP16：需配合损失缩放（Loss Scaling）技术防止梯度下溢，训练流程较复杂。BF16：无需复杂缩放策略，直接用于计算即可保证稳定性，简化训练流程。✅硬件支持FP16：支持广泛，NVIDIA Volta及后续架构GPU均支持。BF16：较新，NVIDIA Ampere、Hopper架构（如A100、H100）及Google TPU等支持。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-09 22:18

中山大学算法工程师

滴滴大模型算法一二三面

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-08 23:15

中山大学算法工程师

BatchNorm和LayerNorm有什么区别？

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-07 23:27

中山大学算法工程师

模型参数初始化为0有什么问题

深度学习模型参数初始化为0会导致严重的训练问题，主要体现在以下方面：一、参数对称性与神经元退化1.同层神经元输出一致当所有权重初始化为0时，同一层的所有神经元在前向传播中会输出相同的激活值（例如隐藏层神经元输出均为0)。即使反向传播时梯度不为0，所有参数的更新幅度也会完全一致，导致神经元无法学习差异化特征。2.网络退化为单神经元效果由于参数对称性，每一层相当于仅有一个有效神经元在起作用，其余神经元成为冗余计算单元，极大降低了模型的表达能力。二、梯度消失与参数更新失效1.反向传播梯度趋零在激活函数如 ReLU 的前向传播中，若输入为0，其导数也为 O （如 ReLU 在负区间的导数为0)。反向传播时梯度逐层衰减至0，导致权重无法更新。例如，两层 ReLU 网络初始化为0时，所有梯度均为0，参数完全停滞。2.偏置参数的局限性即使偏置（ bias ）初始化为非零值，若权重矩阵为0，前向传播的输出仍由偏置主导，无法有效传递输入信号的特征信息。三、特殊情况下的例外1.无隐藏层的模型可初始化为0逻辑回归、单层感知机（如线性回归）等无隐藏层的模型，由于参数更新不受对称性影响，初始化为0仍可正常训练。例如逻辑回归的梯度更新依赖输入数据的差异性，参数可通过训练逐步分化。2.偏置参数的初始化策略部分研究表明，偏置可单独初始化为0而不影响训练（如全连接层的偏置项），但需结合非零权重初始化。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-06 23:03

中山大学算法工程师

XGBoost 和 LightGBM 的区别是什么？

XGBoost和LightGBM都是基于梯度提升决策树（GBDT）的集成学习算法，但在实现细节、性能特点和适用场景上存在差异。以下是两者的主要区别：1️⃣树的生长策略· XGBoost：采用层级生长（level-wise）策略，逐层扩展树的节点，树结构相对均衡，适合数据量较小或中等规模场景。· LightGBM：采用叶子节点优先（leaf-wise）策略，每次优先选择信息增益最大的叶子节点进行分裂，能更快减少误差，但可能导致树的深度更深、结构更不平衡，适合大规模数据集。2️⃣特征分裂点选择方式· XGBoost：使用精确分裂法（exact greedy algorithm），遍历所有特征值的可能分裂点，计算信息增益，选择最优分裂点，计算开销较大。· LightGBM：采用直方图分裂法（histogram-based algorithm），将连续特征离散化为多个区间（bins），在区间上搜索分裂点，显著降低计算复杂度，尤其适用于大规模数据。3️⃣对类别特征的处理✔️ XGBoost：不直接支持类别特征，需进行独热编码（one-hot encoding），增加数据维度，可能影响计算效率。✔️ LightGBM：原生支持类别特征，无需独热编码，通过搜索最佳分裂方式处理类别特征，提高处理效率。4️⃣处理大数据的能力·✔️XGBoost：通过块结构（block structure）并行处理数据，适合大规模数据集，但内存消耗较大。✔️ LightGBM：引入梯度单边采样（Goss）和互斥特征捆绑（EFB）技术，减少计算量和内存占用，训练速度更快，尤其适合高维稀疏数据。5️⃣正则化与防止过拟合✔️XGBoost：通过L1和L2正则化项控制模型复杂度，限制叶节点权重和数量。✔️ LightGBM：支持L1和L2正则化，同时通过设置最小数据量叶子（min_data_in_leaf）、最大深度（max_depth）等参数防止过拟合。6️⃣训练速度与内存消耗·✔️XGBoost：计算效率较高，但在大规模高维数据上内存占用较大，训练速度可能受限。✔️ LightGBM：训练速度通常更快，内存消耗更少，尤其在处理大规模数据集时优势明显🍓适用场景建议：✔️若数据量较小、对模型可解释性要求高，或需要精细调参，可选择XGBoost。✔️若数据量大、特征高维稀疏，或追求快速训练和低内存消耗，LightGBM更合适。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-05 23:13

中山大学算法工程师

蚂蚁金服一二面面经

1️⃣一面 1、介绍自己的中厂实习，从业务背景，困难，解决方法，自己的产出四个维度阐述。2、 ppo 和 dpo 区别和原理（因为实习做的就是 rl 相关）3、是不是用的 Verl 框架做的 rl ？详细讲一下 verl 框架的训练流程。并讲一下配置文件中 rollout _ batchsize , global _ batch _ size , micro _ batch _ size _ per _ device _ for _ update , rollout . n 等等参数的关系，以及他们如何影响最终更新时每张显卡上的样本数。4、reward function 如何设计的为什么这么设计？5、critic model 作用是什么？为什么有了 reward model 还需要 critic model ?6、有没有了解最近的 rl 方法？过了一遍 grpo , dapo , gspo 过了的主要改进点7、计算机基础八股： B 树和 B 一树的区别。如果 CPU 突然被打满了，如何排查？什么情况下会出现锁，如何解决。8、核心代码模式，写一下大模型预测token 时， beam 树如何构建，如何得到最终的结果（ pytorch 简单实现了一下，主要是还是讲明白）9、手撕hot100，中等题，最小生成树。2️⃣二面1、简单介绍中厂实习经历。2、模型蒸馏的数据如何做的？如何清洗蒸馏得到的数据？3、有没有使用强化学习做过数据仿真。这个之前看过一篇论文，刚好讲了一下。4、有没有了解过训练推理一致性这个领域？我讲了一下强化学习领域的推训一致性，固定 flash attention 分块策略， vllm 推理框架固定 page attention 分块策略。5、模型量化如何做的。 gptq , qat 等等，并说明为什么选择了w8a16的量化？6、写一下 ppo 算法的损失函数和 GAE 优势函数。主要还是讲明白7、 grpo 算法中 kl 散度和之前的方法有什么区别？在 dapo 中为何舍弃了 kl 散度？8、模型蒸馏主要的两种方式。硬标签和软标签。9、介绍一下 kmeans 算法，如何设置合适的 k 值。如果在一个非常大的数据量中，如何实时增量更新，并动态管理 k 值。10、一个场景题11、手撕题hot100，中等题，合并 k 个升序链表。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看19道真题和解析

0 点赞评论收藏

分享

11-04 22:09

中山大学算法工程师

大厂算法岗面试常见力扣题

大厂算法岗面试常见力扣题1.最长回文子串2.字符串解码3.三数之和4.跳跃游戏5.验证二叉搜索树6.乘积最大子数组7.买卖股票的最佳时机8.搜索矩阵中第 k 小的元素9.编辑距离10.两数相加11. k 个一组翻转链表12.合并 k 个有序链表13.二叉树最大路径和14.搜索旋转排序数组中的最小值15.搜索数组中第 k 大的元素16.在排序数组中查找元素的第一个和最后一个位置17.螺旋矩阵18.查找最近公共祖先📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

11-03 22:26

中山大学算法工程师

淘天 Agent 面经

1．简单介绍实习的整个项目背景2．训练数据是怎么构建的，大概有多少量；测试集如何构建3．为什么你在项目中选择用 Qwen 的模型而不用内部模型；文本检索时有 embedding 初步排序和重排两种模型可选，为什么选择 Rerank 方式做重排，而非其他重排方式4.GRPO/ GSPO 训练的流程是什么，一条数据的处理过程及损失计算方式是怎样的， GSPO 相比 GRPO 做了哪些改进； GSPO 训练时，损失函数是怎么设计的；数据相同的情况下，为什么 GSPO 相比 GRPO 优化效果5．实习项目是否已上线，每天的访问量多少；系统中有很多重复或相似的用户问题，一直检索会浪费资源，有哪些优化方式能节约资源6．传统的记忆机制在使用过程中，该怎么进行更新和遗忘7．一个标准的 RAG 系统包含哪些模块，整个 RAG 流程是怎样的8．结合实践，写效果好的大模型 Prompt 一般有什么经验，其模块或每个部分应该写什么内容；除了你提到的， Prompt 还有其他比较重要的模块或部分吗；假如针对某个任务（比如 RAG 系统最后做总结）写了一个初始 Prompt ，发现结果有问题、不能很好遵循要求，有什么样的优化策略方式；还有其他能想到的优化方式吗9．你自己在以后的工作中，更感兴趣做模型优化还是做应用相关的工作？这方面是怎么考虑的10．手撕三选二：LC200最大岛屿，LC221最大正方形，LC31搜索旋转排序数组📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务