奶茶是生命的快乐水

03-16 13:35 门头沟学院机器学习

关注

字节一面大模型算法实习面经

有面试过同岗的朋友欢迎评论区交流
1.  DPO 与 SFT 的区别：两者核心差异是什么？可以先做 DPO 再做 SFT 吗？为什么？
2.  把 DPO 用在“第一轮对话”，你会如何构建数据集？`Prompt`、`Chosen`、`Rejected` 具体来源是什么？
3.  多轮对话数据分布设计：单轮和多轮数据各占多少比例？这样配比的理由是什么？
4.  DPO 多轮样本怎么采样：多轮样本如何采样？如何配比？
5.  Reward Hacking现象：你怎么看待这个问题？怎么解决呢

全部评论

推荐最新楼层

03-29 23:55

门头沟学院机器学习

LLM面试题： Transformer

Q:请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列? 难度:⭐⭐ 公司:字节、阿里、腾讯(高频) 算法岗回答要点:   自注意力机制原理  输入序列通过三个线性变换得到 Q(Query)、K(Key)、V(Value) 计算注意力分数:scores = QK^T / √d_k Softmax 归一化得到注意力权重 加权求和:output = softmax(scores) · V    数学推导 Attention(Q,K,V) = softmax(QK^T/√d_k)V   为什么除以√d_k?防止点积过大导致梯度消失 Mult...

查看3道真题和解析

点赞评论收藏

分享

04-21 14:20

门头沟学院算法工程师

字节推荐算法暑期实习一面分享

1.实习拷打2.讲一下你项目迭代的过程3.开放性问题讨论rankmixer的效果4.又问onerec范式上线后的cost5.讲讲序列建模怎么做的6.讨论具体业务场景有没有跷跷板7.了解的多目标结构8.AUC和UAUC，有没有AUC和UAUC跷跷板的情况，怎么解决，线上看不看AUC这个指标为什么9.你们看什么指标10.有没有在离线不一致的问题11.为什么想换实习手撕:1.手撕MHAtokenmixing2.编辑距离

查看12道真题和解析

点赞评论收藏

分享

04-10 20:34

广西大学算法工程师

雷鸟创新大模型开发一面

1. 自我介绍2. PPO、TRPO、DPO 分别是什么，它们的核心差异在哪TRPO 的出发点是让策略更新别跨太大步，它通过约束新旧策略的 KL 距离，把优化问题写成一个带信赖域的约束优化，所以理论上比较稳，但实现复杂、计算成本也高。PPO 可以看成是 TRPO 的工程化近似，它不直接解复杂约束问题，而是通过 clip 或 penalty 的方式，限制策略更新过猛，因此在实践里更常用。DPO 和前两者不太一样，它不是传统在线 RL，而是直接从偏好对里学习一个“更偏向 chosen、压低 rejected”的目标，相当于把 reward optimization 吸收到一个更简单的监督目标中。P...

AI-Agent面试实战...

点赞评论收藏

分享

04-20 02:45

门头沟学院算法工程师

27日常实习字节头条推荐算法一面

继续来分享下最近的面经~1.手撕编辑距离2.dpo grpo基本原理 损失函数构成3.reward hacking解决办法4.kl散度5.llm做数据清洗6.QA注入知识的作用7.grpo在cot场景下不稳定怎么改进8.grpo改进9.dapo gspo聊一聊10.transformer模型自注意力机制计算复杂度

查看10道真题和解析

点赞评论收藏

分享

04-09 12:20

门头沟学院嵌入式软件开发

阿里 AI Agent 开发一面（附答题思路）

1. Agent 的架构设计？一个完整的 Agent，一般不是单独一个大模型就能跑起来，核心会拆成几层。最上面是任务入口：负责接收用户问题和上下文；中间是决策层：负责意图识别、任务拆解、规划和工具选择；下面是执行层：真正去调工具、查知识库、访问服务；最后是记忆和状态层：维护多轮上下文、历史执行结果和中间变量。如果做得再工程化一点，通常还会加一个校验层。因为模型规划出来的步骤不一定总是对的，工具参数也可能填错，所以在执行前后都要做检查，比如参数合法性校验、工具返回结构校验、结果一致性校验。Agent 真正难的地方不是 “能不能想”，而是 “想完能不能稳定执行”。2. RAG 的检索如何实现？RA...

查看8道真题和解析

点赞评论收藏

分享

评论

1

10

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI让海力士市值突破9000亿美元 #

365次浏览 7人参与

# 百度工作体验 #

335468次浏览 2283人参与

# 在爱玛，骑向未来 #

46308次浏览 440人参与

# 打工人的精神状态 #

155204次浏览 1572人参与

# 职场新人体验 #

193373次浏览 1253人参与

# 百度求职进展汇总 #

731583次浏览 6450人参与

# 工作后，你落下了哪些病根 #

42695次浏览 300人参与

# 机械人，说说你的烦心事 #

149314次浏览 1174人参与

# 简历当中有水分算不算造假？ #

176850次浏览 2331人参与

# 机械人，你最希望上岸的公司是？ #

218437次浏览 1946人参与

# 你收到了哪些公司的笔试？ #

69627次浏览 446人参与

# 米哈游求职进展汇总 #

692125次浏览 3364人参与

# 毕业季，给职场新人一些建议 #

221929次浏览 2608人参与

# 工作压力大，你会干什么？ #

82991次浏览 713人参与

# 机械/制造每日一题 #

98103次浏览 1503人参与

# 为了求职，我做过的疯狂伪装 #

88675次浏览 777人参与

# 如果秋招能重来，我会____ #

105739次浏览 514人参与

# 你以为的实习VS真实的实习 #

143037次浏览 758人参与

# 什么专业适合考公 #

69971次浏览 359人参与

# 重来一次，我还会选择这个专业吗 #

467947次浏览 3988人参与

# 应届生第一份工作最好去大厂吗？ #

150731次浏览 1230人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务