2025-11-13 01:10 陕西理工大学算法工程师

关注

阿里26秋招大模型算法面经

1.策略梯度算法的公式？

2.DPO和PPO的损失函数，原理，区别，DPO的探索是如何体现的？

3.梯度消失，梯度爆炸的根本原因？

4.模型过拟合的根本原因？有哪些方式缓解过拟合？

5.大模型分布式训练的通信协议？torchrun是做什么用的？

6.deepspeed的三个阶段，分配参数时，单机8卡和双机16卡，每张卡上分配的参数量是一样的吗，为什么？

7.大模型位置编码的方式？旋转位置编码相比于传统正余弦位置编码的区别？为什么要用旋转位置编码？

8.COT的训练是如何做的，数据如何构造？

9.预训练时packing和padding的区别，packing的优点和缺点有哪些，哪种效果好一些？

10.Qwen3的模型架构（详细介绍），相比于Qwen2.5有哪些改进？

11.同样是MoE架构，Qwen3的MoE架构和DeepSeek的MoE架构有哪些区别？

12.多模态大模型的ViT，解释原理、如何训练的？

手撕：
1、一道sql题（第一次遇到大模型面试让手撕sql的）
2、手撕transformer（第一次遇到直接说手撕transformer的）

全部评论

推荐最新楼层

03-12 10:26

广西大学算法工程师

满帮集团大模型应用开发一面

1. xgboost 为什么叫梯度提升树因为它本质上就是：树：基学习器是 CART 回归树提升：一棵一棵往上加梯度：每一轮拟合的是损失函数对当前预测的负梯度普通提升树可以理解成拟合残差，XGBoost 是把“残差”推广成了更一般的梯度下降框架，而且用了二阶导信息，所以比传统 GBDT 更强。2. 知道什么概率模型？朴素贝叶斯，说一下贝叶斯的思想概率模型就是用概率分布描述数据和变量关系的模型，比如：朴素贝叶斯HMMCRFGMM贝叶斯网络贝叶斯思想就一句话：先验 + 数据 = 后验。公式：[P(A|B)=\frac{P(B|A)P(A)}{P(B)}]朴素贝叶斯做分类时，假设特征在给定类别下条件独...

AI-Agent面试实战...

点赞评论收藏

分享

03-23 18:20

门头沟学院算法工程师

京东多模态算法工程师一面面经

1、项目，各种聊就行2、ViT的原理，swin-Transformer的原理，各自对比，他们的编码方式，是否可学习，各自优缺点，attention的区别和滑动方法；3、多模态VLM的不同模块的设计原理，attention原理，旋转位置编码原理4、手撕动态规划题目：给定一个三角形 triangle ，找出自顶向下的最小路径和。 每一步只能移动到下一行中相邻的结点上。相邻的结点 在这里指的是 下标 与 上一层结点下标 相同或者等于 上一层结点下标 + 1 的两个结点。也就是说，如果正位于当前行的下标 i ，那么下一步可以移动到下一行的下标 i 或 i + 1 。 示例 1： 输入：triangle = [[2],[3,4],[6,5,7],[4,1,8,3]] 输出：11 解释：如下面简图所示： 2 3 4 6 5 7 4 1 8 3 自顶向下的最小路径和为 11（即，2 + 3 + 5 + 1 = 11）。 示例 2： 输入：triangle = [[-10]] 输出：-10解题代码：# dp 三角def minimumSum(triangle):# top --downfor i in range(len(triangle)-2, -1, -1):# scane all elemfor j in range(len(triangle[i])):# current +=  下一行最小值triangle[i][j] += min(triangle[i+1][j], triangle[i+1][j+1])# top last就是return triangle[0][0]if __name__ == "__main__":triangle = [[2],[3,4],[6,5,7],[4,1,8,3]]print(minimumSum(triangle))triangle = [[-10]]print(minimumSum(triangle)

查看3道真题和解析

点赞评论收藏

分享

03-09 15:13

广西大学算法工程师

AI-Agent 面试题汇总 - 大模型篇

一、大语言模型基础1. 目前主流的开源模型体系有哪些？主流开源模型体系包括：LLaMA 系、Qwen 系、GLM/ChatGLM 系、Mistral/Mixtral 系、Baichuan 系、DeepSeek 系、InternLM、Yi 等。面试里建议从以下维度比较：参数规模（7B/13B/70B…）上下文长度（8K/32K/128K…）多语言能力工具调用能力（function calling / agent）推理成本与部署难度开源协议（是否可商用）2. Prefix LM 和 Causal LM 区别是什么？Causal LM：严格自回归，token 只能看左侧历史（下三角 mask）。Pr...

AI-Agent面试实战...

点赞评论收藏

分享

03-14 09:54

广西大学算法工程师

科大讯飞 AI Agent开发一面

1、自我介绍2、实习介绍, 遇到过什么困难,有什么提升3、如果现在就是开发的话，一般用什么 IDEPython 开发我一般用 PyCharm 或者 VS Code。如果项目偏工程化、代码量比较大、需要比较强的调试和项目管理能力，我更倾向用 PyCharm，因为它对 Python 项目结构、虚拟环境、断点调试、调用链查看支持比较完整。如果项目需要同时处理前后端、脚本、配置和容器文件，我会用 VS Code，因为插件生态更灵活，远程开发也比较方便。如果涉及服务部署和 Linux 环境排查，我也会结合终端、vim、tmux 一起用。4、项目介绍5、上线后出现 bug，一般怎么处理线上出现 bug 时...

AI-Agent面试实战...

点赞评论收藏

分享

03-04 18:37

北京邮电大学 Python

搜狐畅游一面

ai算法实习生2026.03.04，下午14:00，一面，线上，1h左右，都开摄像头了1.自我介绍2.多策略微调这个项目是什么类型的？在 910B3 服务器上微调Qwen-3-8B 模型，使用全量微调、lora 微调和 freeze 微调三个策略做对比，是自己为了学习模型微调自主开展的项目。3.这个项目最终成果和目的是什么？目的是提升模型在中文语义理解方面的能力，最终用中文逻辑推理、中文语理解、知识相关三个数据集完成了测试。4.可以举例说一下中文语言理解的实现过程吗？选用中文逻辑推理、中文语理解、知识方面的三个数据集，基于Qwen-3-8B 模型用三种微调策略训练后，用这三个数据集对模型进行中...

点赞评论收藏

分享

评论

4

15

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

63175次浏览 537人参与

# 第一份工作应该选择高薪还是大平台 #

220423次浏览 1037人参与

# 华泰星战营，提前锁定校招offer #

2458次浏览 212人参与

# 考公VS就业，你怎么选？ #

99846次浏览 522人参与

# 卷__卷不过你们，只能卷__了 #

59798次浏览 755人参与

# 小红书求职进展汇总 #

238388次浏览 1397人参与

# 校招第一份工作你干了多久？ #

150046次浏览 630人参与

# 商战，最累的是我们 #

31602次浏览 98人参与

# 大疆求职进展汇总 #

699694次浏览 4351人参与

# 哪些公司对双非友好 #

229821次浏览 1234人参与

# AI时代还有必要刷leetcode吗？ #

48537次浏览 574人参与

# 格力求职进展汇总 #

213460次浏览 1276人参与

# 字节7000实习来了，你投了吗？ #

43496次浏览 336人参与

# 想从事Agent应该学习哪些技术？ #

14134次浏览 388人参与

# 大学生该如何认清当下的就业环境？ #

165969次浏览 910人参与

# 海康威视求职进展 #

134574次浏览 555人参与

# 26届春招投递记录 #

4864次浏览 49人参与

# 工作中，努力重要还是选择重要？ #

285885次浏览 2586人参与

# HR面都在聊什么？ #

21635次浏览 236人参与

# 有哪些公司在面试时考察AICoding？ #

27303次浏览 437人参与

# 正在春招的你，也参与了去年秋招吗？ #

394627次浏览 2712人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务