02-10 19:30 昆明理工大学算法工程师

关注

星海图大模型后训练一面-实习面经

面了一个多小时，整体感觉还不错，欢迎佬交流～
1.zero123
2.你有没有实际对比过普通 DDP 和 ZeRO-1？比如 4 卡情况下，把 optimizer state 或 gradient 切成 shard 之后，显存大概能省多少？
3.CPU offload
4.BF 16 和 FP 16
5.在 DDP 多卡训练中，通常一个 epoch 的定义是：所有 GPU 协同遍历一次完整数据集，且每个样本在该 epoch 内只被采样一次。但在实际训练中，我们往往是按 step 数控制训练与保存 checkpoint 的，比如每 5000 step 保存一次模型，这样 checkpoint 很可能落在某个 epoch 的中间。在恢复训练时，我们一般可以恢复 model optimizer lr step，但 DataLoader / Sampler 本身是无状态的，不会自动恢复到 epoch 中间的位置。在从一个 epoch 中间的 checkpoint 恢复训练时，有没有办法保证数据采样能够“无缝衔接”，继续完成当前 epoch，而不是重新打乱或重复采样数据？
6.当 checkpoint 保存发生在 epoch 中间时，Trainer 是否能正确恢复 DataLoader 的采样状态？如果不能，工程上通常如何保证 resume 后的数据连续性？你是怎么实现的，是否用了 Accelerate或者huggingface 的Trainer
7.DDP中当同时涉及 DataLoader 和 Sampler 时，shuffle 应该由哪一层来负责？
8.PyTorch 的 DistributedSampler 内部是如何根据 num_replicas 和 rank 生成每个进程各自的数据 index 列表的？它如何在不进行进程间通信的前提下，确保多进程训练时样本划分互不重叠且覆盖完整数据集？
9.GQA
10.RMSNorm和LN
11.在实际训练系统中，从吞吐量和资源利用的角度考虑，tokenization 更合理的放置位置是在 Dataset/DataLoader 阶段，还是作为模型 forward 前的一部分？
12.手撕省份数量

全部评论

推荐最新楼层

Monash University C++

后训练没论文可以冲吗？单9硕导师放养

点赞回复分享

发布于 03-24 12:41 湖南

05-18 11:00

浙江大学算法工程师

C++面试高频八股文汇总：别再只背概念了，真正卡人的就这几类

很多人背 C++ 八股，背到最后有一种错觉：好像每个问题都见过，但一到面试现场，面试官稍微换个问法，人就开始乱。比如他不是直接问你“堆和栈的区别”，而是问你：“一个局部对象什么时候析构？返回局部对象为什么有时候没出问题？new 出来的内存为什么容易泄漏？”你会发现，真正难的不是有没有背过，而是这些知识点能不能串起来。先说结论：C++ 八股高频内容其实非常集中，反复考的无非就是对象模型、内存管理、拷贝控制、多态、模板/STL、智能指针、多线程这几块。面试官也不是要你把标准全文背下来，他更在意两件事：第一，你是不是知道这个机制解决什么问题；第二，你能不能说出它的代价、边界和常见坑。一、C++八股到...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

05-13 17:44

已编辑

实习简历求拷打

本人情况如下1. bg 9 本硕，一篇软件工程方向、LLM微调应用落地相关的b类期刊；2. 日常实习：华为 大模型算法工程师（大模型/NLP方向）。独立负责了一个 HarmonyOS 文档生成相关的业务全链路，主要内容包括：需求调研 – 数据集构建 – 32B 模型 LoRA – RAG与推理加速。指标提升在30%-40%。3. 暑期实习：腾讯 大模型风控算法。负责风控大模型的迭代后训练的全链路，主要内容包括：风控规则抽取，图建模→ Graph-LLM 后训练对比学习 → 向量检索召回。成果：还没做完，但看趋势应该也是会上线一个模型权重。目前有几个问题/焦虑：1. 暑期实习方向太窄了，风控这个标签太强。如果秋招想找通用大模型算法的岗位，是不是会有难度。2. 暑期实习的Graph-LLM训练方面，我求简单，用的是Textualized Graph，没有用Graph Embedding那一套。这在秋招面试时会不会被喷。3. 问一个很虚的问题吧hhh 这经历，能找到大模型算法的岗位吗...

点赞评论收藏

分享

05-08 09:24

武汉大学 C++

面试凉经，又凉了好没意思啊

海康威视嵌入式面经随记起初兴致勃勃地投了海康，没想到还是挂在了二面，感觉整体难度还好但是自己当时没想起来。复盘了一下，很多考点其实是有规律可循的。备考建议：如果你也在准备嵌入式方向，推荐先系统过一遍这份面经 我也是看完之后才意识到自己哪里没准备到位的。一面（50min）Linux 中断流程，谈谈你对中断上下文的理解C 语言字节对齐的规则，为什么要字节对齐？进程间通信的方式，为什么分用户空间和内核空间？C++ 多态怎么理解？C++ 有哪些多态的典型例子？C 语言程序运行时的内存分配const 关键字的用法extern C 有什么用？为什么声明 C 语言环境？与 C++ 环境区别？delete [...

查看26道真题和解析

点赞评论收藏

分享

05-25 12:02

字节豆包大模型继续卷 vs 一汽红旗国企追求稳定

投票

本人33岁了，目前在字节大模型团队 拿了一汽红旗长春老家的offer ，薪资也不错。到底是选择继续呆在字节满一年还是现在回长春老家

牛客53699482...：建议回家躺平

点赞评论收藏

分享

05-13 14:44

华中科技大学 Java

投票

五一结束的时候，拿到了pdd的offer，是服务端研发；今天腾讯元宝也发offer了，是搜索部门，其实当时拿到pdd的offer的时候，基本心也定了，虽然腾讯的也在流程中，但今天元宝又给了offer，有点难选了

点赞评论收藏

分享

评论

点赞

3

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 发面经攒人品 #

8933500次浏览 98985人参与

# 体制内上岸心路历程 #

39554次浏览 226人参与

# 27届实习投递记录 #

169461次浏览 1698人参与

# 担心入职之后被发现很菜怎么办 #

308268次浏览 1226人参与

# 求职遇到的搞笑事件 #

199455次浏览 1009人参与

# 你收到了团子的OC了吗 #

1640809次浏览 11870人参与

# 万物皆可发面经 #

6614次浏览 82人参与

# 扒一扒那些奇葩实习经历 #

161275次浏览 1184人参与

# 现在还是0offer，延毕还是备考 #

1435046次浏览 7969人参与

# 查收我的offer竞争力报告 #

304044次浏览 1763人参与

# 招聘要求与实际实习内容不符怎么办 #

227339次浏览 1078人参与

# 实习生的蛐蛐区 #

1013904次浏览 5167人参与

# 实习，不懂就问 #

233700次浏览 1775人参与

# HR问：你期望的薪资是多少？如何回答 #

103523次浏览 841人参与

# AI了，我在打一种很新的工 #

213292次浏览 2394人参与

# 父母对你找工作是助力还是阻力？ #

54679次浏览 483人参与

# 地方国企笔面经互助 #

43522次浏览 113人参与

# 秋招盘点:机械人值得去的企业 #

109111次浏览 746人参与

# 美团秋招笔试 #

222347次浏览 1203人参与

# 实习最想跑路的瞬间 #

148144次浏览 787人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务