求职战斗鸡

02-06 06:20 合肥工业大学算法工程师

关注

字节大模型日常实习一面面经

整体感觉还是不错的，发一下问题供大家参考～
八股吟唱：
1、Pretrain、SFT、RLHF区别（目标、任务定位和解决的问题？）
2、为什么偏好对齐不能直接用偏好数据做 SFT，而用RL
3、Pretrain和 SFT 在优化目标上的区别
4、SFT的loss是什么，若target有10或100个token，loss如何计算
5、SFT 样本（含 prompt）与预训练样本在计算 Loss 时的区别，如何屏蔽prompt的Loss
6、控制生成多样性的参数有哪些？怎么控制的？
7、top-k与top-p 区别
8、除了贪心，还有哪些生成策略？
9、你对多模态的理解？
10、最近读了什么论文？论文的核心亮点是什么？
11、PPO和GRPO的结构区别，各自适用的场景？
12、DAPO、GSPO具体做了什么改进？
13、是否了解 Swift？DeepSpeed 与 Megatron 的区别

手撕算法：
交叉熵、Softmax、Self-Attention
力扣139题 Word Break变种

全部评论

推荐最新楼层

02-16 09:58

扬州大学运营

6款适用于WordPress 自定义URL隐藏重定向跳转的插件

针对您在 WordPress 中自定义 URL、隐藏真实跳转地址的需求，推荐以下几款插件，已按不同应用场景分类：‍📈 联盟营销/短链管理 (推荐首选)1. Pretty Links (含免费版)核心功能：在您的域名下创建形如 yoursite.com/go/xxx的短链，用于替代冗长的联盟链接或外链，有效隐藏真实 URL。高级用法：支持 301/302/307 等多种跳转方式、按设备/地区/时间进行智能跳转、自动关键词替换、详细的点击统计，并可按活动/产品对链接进行分组管理。适用人群：联盟营销者、网赚博主、内容网站主。🔄 通用页面/外链重定向2. Redirection核心功能：强大的站点...

点赞评论收藏

分享

02-10 19:30

昆明理工大学算法工程师

星海图大模型后训练一面-实习面经

面了一个多小时，整体感觉还不错，欢迎佬交流～1.zero1232.你有没有实际对比过普通 DDP 和 ZeRO-1？比如 4 卡情况下，把 optimizer state 或 gradient 切成 shard 之后，显存大概能省多少？3.CPU offload4.BF 16 和 FP 165.在 DDP 多卡训练 中，通常一个 epoch 的定义是：所有 GPU 协同遍历一次完整数据集，且每个样本在该 epoch 内只被采样一次。但在实际训练中，我们往往是 按 step 数控制训练与保存 checkpoint 的，比如每 5000 step 保存一次模型，这样 checkpoint 很可能落在 某个 epoch 的中间。在恢复训练时，我们一般可以恢复 model optimizer lr step，但 DataLoader / Sampler 本身是无状态的，不会自动恢复到 epoch 中间的位置。在从一个 epoch 中间的 checkpoint 恢复训练时，有没有办法保证数据采样能够“无缝衔接”，继续完成当前 epoch，而不是重新打乱或重复采样数据？6.当 checkpoint 保存发生在 epoch 中间时，Trainer 是否能正确恢复 DataLoader 的采样状态？如果不能，工程上通常如何保证 resume 后的数据连续性？你是怎么实现的，是否用了 Accelerate或者huggingface 的Trainer7.DDP中当同时涉及 DataLoader 和 Sampler 时，shuffle 应该由哪一层来负责？8.PyTorch 的 DistributedSampler 内部是如何根据 num_replicas 和 rank 生成每个进程各自的数据 index 列表的？它如何在不进行进程间通信的前提下，确保多进程训练时样本划分互不重叠且覆盖完整数据集？9.GQA10.RMSNorm和LN11.在实际训练系统中，从吞吐量和资源利用的角度考虑，tokenization 更合理的放置位置是在 Dataset/DataLoader 阶段，还是作为模型 forward 前的一部分？12.手撕省份数量

查看11道真题和解析

点赞评论收藏

分享

01-29 09:45

美团_后台开发工程师

滴滴一面：在项目中使用多线程时遇到过哪些问题？

文章内容收录到个人网站，方便阅读：http://hardyfish.top/多线程带来的收益往往写在压测曲线上，代价则藏在“偶发、难复现、只在生产出”的问题里。项目里遇到的坑，大多集中在并发正确性、资源治理、可观测性与性能错觉四个层面。并发正确性：最贵的是“偶发错误”数据竞争与可见性同一份共享状态被多个线程读写，既可能写丢，也可能读到过期值。最常见的表象是计数不准、状态机跳转异常、缓存命中率异常波动。根因通常是缺少互斥与内存可见性保障（例如仅靠普通变量传递“已初始化/已关闭”信号）。复合操作非原子“先检查再执行”在单线程里很自然，在多线程里就是经典竞态：余额校验后扣款、库存校验后减库存、Map...

大厂面试每日一题

点赞评论收藏

分享

02-12 03:20

门头沟学院机器学习

百川智能大模型实习一面压力好大

1.了解搜索推荐相关内容吗2.例子库的创建流程3.query改写用了什么模型 为什么不用大模型4.三路召回如何做的5.为什么还要多模型做微调 数据量是多少6.deepspeed了解么如何做的7.ragas评估指标 评估流程 数据如何获取8.线上评估指标数据如何构造9.agent表格数据如何增强的 数据量是多少10.多 agent如何如何做的协作11.如何提取复杂表格信息12.如何做的 sql安全检查 检测率为多少13.上线了吗 线上如何评估 使用量是多少14.r1模型有了解么 说一下流程15.grpo算法说一下 ppo和dpo16.算法题:求根号下的数(二分)

查看16道真题和解析

点赞评论收藏

分享

昨天 17:19

CVTE _软件开发四部_TV系统软件工程师

嵌入式面经111题答案汇总(含技术答疑)_3大嵌入式项目源码分享—嵌入式Linux项目

全网最受欢迎的嵌入式面经 面经一共32篇文章，包含嵌入式面试高频必问考点，21w+同学学习，4900+订阅，非常适合在找工作面经薄弱的同学，订阅点击链接（承诺免费技术答疑）： --> 《嵌入式/C++面试题解析大全》 1、简介 本人是2020年毕业于广东工业大学研究生：许乔丹，有国内大厂CVTE和世界500强企业工作经验，整理超全面111道嵌入式面试题目答案解析（承诺提供专栏内容免费技术答疑），本专栏内容主要有：  面试过程口头提问的问题答案汇总，承诺提供免费技术答疑，以及其他的交流，如要怎么入门c++，简历如何写，算法题如何刷等等，实现校招全陪伴！  2、项目经验 如果你找的是单片机，...

嵌入式转岗的难度怎么样

点赞评论收藏

分享

评论

1

3

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客新年AI问运 #

8716次浏览 116人参与

# 你喜欢工作还是上学 #

89597次浏览 884人参与

# 牛客AI体验站 #

16775次浏览 292人参与

# 被AI治愈的瞬间 #

90791次浏览 686人参与

# 你找工作的时候用AI吗？ #

173487次浏览 889人参与

# 有必要和同事成为好朋友吗？ #

1415次浏览 27人参与

# 如何提高实习转正率？ #

87193次浏览 510人参与

# 听劝，这个公司值得去吗 #

665819次浏览 1996人参与

# 你觉得什么岗位会被AI替代 #

41367次浏览 278人参与

# 为了秋招你都做了哪些准备？ #

32661次浏览 534人参与

# 机械人的薪资开到多少，才适合去？ #

165233次浏览 573人参与

# 你最满意的offer薪资是哪家公司？ #

71589次浏览 355人参与

# 这个工作能去吗 #

115376次浏览 663人参与

# 多益网络工作体验 #

63372次浏览 306人参与

# 工作中的卑微时刻 #

33601次浏览 199人参与

# 秋招吐槽大会 #

304937次浏览 1524人参与

# 央国企投递记录 #

177125次浏览 1655人参与

# 国央企求职进展汇总 #

442891次浏览 3509人参与

# 数字马力求职进展汇总 #

331861次浏览 2381人参与

# 你已经投递多少份简历了 #

1353433次浏览 10821人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务