03-07 21:20 门头沟学院机器学习

关注

字节大模型算法实习一面 45min

攒人品中！
1.dpo 和 sft 的区别，先 dpo 后 sft 可以么
2.如果把 DPO 用在“第一轮对话”，你会怎么做数据集？prompt、3.chosen/rejected 你打算怎么来
4.多轮对话的数据分布你会怎么设计：单轮和多轮各占多少，为什么这么配
5.具体到 DPO 数据，多轮样本你会怎么采样/怎么配比
6，reward hacking 你怎么看？一般怎么防，怎么兜底

全部评论

推荐最新楼层

创作小队长

牛客创作者运营

宝子，你这篇面经很有价值诶，感谢分享！！我私信你啦，你看看~

点赞回复分享

发布于 03-12 14:30 北京

04-10 20:34

广西大学算法工程师

雷鸟创新大模型开发一面

1. 自我介绍2. PPO、TRPO、DPO 分别是什么，它们的核心差异在哪TRPO 的出发点是让策略更新别跨太大步，它通过约束新旧策略的 KL 距离，把优化问题写成一个带信赖域的约束优化，所以理论上比较稳，但实现复杂、计算成本也高。PPO 可以看成是 TRPO 的工程化近似，它不直接解复杂约束问题，而是通过 clip 或 penalty 的方式，限制策略更新过猛，因此在实践里更常用。DPO 和前两者不太一样，它不是传统在线 RL，而是直接从偏好对里学习一个“更偏向 chosen、压低 rejected”的目标，相当于把 reward optimization 吸收到一个更简单的监督目标中。P...

AI-Agent面试实战...

点赞评论收藏

分享

03-31 13:15

门头沟学院算法工程师

快手春招大模型算法一面求offer中

祝大家都能拿到满意的Offer！1. 项目拷打2. 实习拷打3. 介绍一下Reward model在训练中扮演了什么角色？4. 100页的pdf文件格式化后有多大？5. Qwen的模型结构了解多少？6. 安全生产的项目怎么评估的？1）传统指标：acc、rouge-L、berscore 2）模型打判 3）规则匹配7. 造好的数据，怎么做数据配比，如何评估数据质量？8. DPO是怎么训练的？9. 算法题：最长回文子串

查看7道真题和解析

点赞评论收藏

分享

04-09 12:20

门头沟学院嵌入式软件开发

阿里 AI Agent 开发一面（附答题思路）

1. Agent 的架构设计？一个完整的 Agent，一般不是单独一个大模型就能跑起来，核心会拆成几层。最上面是任务入口：负责接收用户问题和上下文；中间是决策层：负责意图识别、任务拆解、规划和工具选择；下面是执行层：真正去调工具、查知识库、访问服务；最后是记忆和状态层：维护多轮上下文、历史执行结果和中间变量。如果做得再工程化一点，通常还会加一个校验层。因为模型规划出来的步骤不一定总是对的，工具参数也可能填错，所以在执行前后都要做检查，比如参数合法性校验、工具返回结构校验、结果一致性校验。Agent 真正难的地方不是 “能不能想”，而是 “想完能不能稳定执行”。2. RAG 的检索如何实现？RA...

查看8道真题和解析

点赞评论收藏

分享

04-11 20:15

门头沟学院算法工程师

微信wxg大模型算法实习一面夯中夯

攒攒人品！有面试过同岗的朋友欢迎评论区交流1.项目拷打2.为什么强化学习用的是Grpo，没有用DPo测试？如果要改进的话有什么想法？3.有没有遇到上线后过拟合的情况？4.蒸馏部署的合规率怎么算的，离线的吗？5.在推荐场景下，有了sid之后怎么构造样本，然后以及怎么去训练。推荐系统和大模型结合，能基于目前的东西做什么改进？两个力扣：1.数组top k2.数组中出现两次的数

查看7道真题和解析

点赞评论收藏

分享

04-12 20:04

广西大学算法工程师

Shopee 大模型算法开发一面

1. 自我介绍2. 介绍你做的模型loss设计，包含基础损失与辅助损失，说明各部分作用与梯度流动逻辑模型loss采用多任务联合优化框架，主损失负责核心任务拟合，辅助损失用于约束特征对齐、分布对齐与梯度稳定。以多模态分类模型为例，主损失使用交叉熵损失，直接优化分类准确率；辅助损失包含对比损失用于拉近同类特征距离、拉远异类特征，以及KL散度损失用于对齐教师模型与学生模型的分布。训练时通过权重系数平衡各损失，保证主任务不被辅助任务淹没，同时利用梯度裁剪解决多任务梯度冲突问题。 import torch import torch.nn as nn class MultiModalLoss(nn.Mod...

AI-Agent面试实战...

点赞评论收藏

分享

评论

1

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习生的蛐蛐区 #

1007844次浏览 5133人参与

# 扒一扒那些奇葩实习经历 #

160722次浏览 1183人参与

# 发面经攒人品 #

8903320次浏览 98764人参与

# 应届生第一份工资要多少合适 #

28269次浏览 108人参与

# 27届实习投递记录 #

166538次浏览 1681人参与

# 应届生，你找到工作了吗 #

180989次浏览 914人参与

# 招聘要求与实际实习内容不符怎么办 #

226846次浏览 1077人参与

# 机械人值得去的小众企业 #

38390次浏览 68人参与

# 现在入门AI首先要做什么？ #

18330次浏览 145人参与

# 互联网行业现在还值得去吗 #

65719次浏览 380人参与

# 实习最想跑路的瞬间 #

147703次浏览 787人参与

# 面试反问你会问什么 #

213643次浏览 1962人参与

# 机械人，秋招第一次笔试的企业是哪家？ #

106968次浏览 715人参与

# 万物皆可发面经 #

5607次浏览 67人参与

# AI了，我在打一种很新的工 #

211656次浏览 2352人参与

# 实习，不懂就问 #

231812次浏览 1771人参与

# 实习教会我的事 #

82287次浏览 521人参与

# 网易求职进展汇总 #

218832次浏览 1542人参与

# 春招前还要继续实习吗？ #

72125次浏览 353人参与

# 校招求职有谈薪空间吗 #

234474次浏览 2400人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务