字节大模型一面面经(强度真高!!

面试问题:
- 聊聊对transformer的理解,整体结构是怎样的?几个部分组成
- Attention的公式里为什么要除以根号dk?这个操作有什么作用?另外,为什么在训练过程中容易出现梯度消失或梯度爆炸的问题?
- (针对简历提问)在sft中遇到了哪些问题?最后是怎么解决的?能不能分享一下你的经验?(好好好套方案?)
- (针对简历提问)领域大模型数据配比是如何考虑的?不同领域的数据比例如何确定?
- 为什么现在的LLM都是Decoder-only?这种结构有什么优势?
- ADAM优化器比SGD好在哪?简单介绍一下梯度下降的原理,ADAM是怎么改进的?
。。。

代码题:
- 给定一个互不相同的整数数组 nums,求其所有子集(幂集)。(类似leetcode78)
- (第二个题好像是个字符串的题,忘了)
全部评论
领域数据配比怎么定的
点赞 回复 分享
发布于 04-25 16:40 广东
感觉还行,是暑期吗?
点赞 回复 分享
发布于 04-06 22:41 天津

相关推荐

补发一下之前面试腾讯的面经,具体timeline可以参考前面的帖子。一面(约30mins):自我介绍,挑一个简历里最好的一个项目详细介绍下项目中遇到了什么挑战,怎么解决的了解DeepSeek吗,为什么DeepSeek现在这么火?说一下DeepSeek里的MLA和GRPOGRPO和DPO,PPO,RLHF的区别看你之前有LoRA微调DeepSeek的项目,简单说说微调经验,效果如何RAG在检索阶段能有哪些优化?(sub-query,HyDE等)二面(约1h10mins):自我介绍,拷打简历。写一下GRPO的公式先屏幕共享从头到尾walk through讲一下DeepSeek技术报告论文。面试官中间会穿插提问DeepSeek-v3/r1/r1-zero有什么区别DeepSeek-r1-zero的冷启动数据是怎么组成的DeepSeek-r1-zero解决了DeepSeek-r1的哪些问题如何解决大模型的幻觉Embedding如何微调(讲了对比学习啥的)RAG的评测指标有哪些业界现在function call的做法和水平场景题:大致是RAG中检索结果遇到张冠李戴的问题该如何解决举几个例子能够体现你的研究能力三面(约30mins)拷打LoRA微调项目,问了实验的数据集,参数设置,结果如何等等你目前的研究方向主要是什么?讲一下ReRanker的目的,做法有哪些场景题:我现在运用RAG来检索回答,目标是检索四个季度的表格数据,但是经过检索+ReRanker后只出现了三个季度的数据,该如何解决hr面(约15mins)比较常规,大致如下:用三个词语描述下你为何能胜任这份工作你的优缺点都说一下你过往实习项目中遇到过的最大困难是什么,怎么解决的最早实习时间,实习时常引流:腾讯字节阿里淘天美团拼多多#暑期实习##腾讯##大模型#
Rafae1:接好运
查看27道真题和解析
点赞 评论 收藏
分享
结合最近辅助修改的简历及项目,老师总结了部分大模型微调简历的踩雷点。🙅‍♂️错误示范:在 x任务中,获取 xxx 条数据,通过规则 or 脚本清洗出 x 条数据,然后微调 y 大模型,在业务上提升 x 个点。✍🏻原因:大模型微调的平台是现成的,基模是现成的,体现不出核心能力。✅应该怎么写?首先介绍业务背景:业务是一个销售对话业务,机器人是销售,代替真人,直接面对用户。我们会给模型设定任务,任务是 prompt 。步骤1️⃣.提取训练数据问题:1.真人通话每通电话任务是未知的,我们训练数据是任务+通话的 pair 对。2.真人通话很乱,与客户的对话是各种交叉的,导致 asr 后并不是一人一轮。解决方案:1.首先通过大模型 prompt 对该通电话提取任务,得到任务+ pair 对。需要用到 cot + reflection +多 Ilm 一致性+ debating 的模式。2.使用大模型根据以上任务和真人对话,让大模型编写出通话内容。提问,为什么要编写而不是直接用?步骤2️⃣.制定训练数据集问题:1、正常的对话内容,前面几句和后面几句基本上一致的。都是问候和拜拜,但是也有一些差异。2、因为都是相似场景,虽然任务不同,但是很多场景语义很相似。解决方案:1、基于轮次的权重采样:通过轮次设定权重进行 weighting sample 。解决问候和拜拜的高占比问题。2、基于语义的采样:使用 bert 对对话内容进行 embedding ,然后使用层次聚类通过调节阈值聚类出相似语义的类。对一个类里的样本进行随机采样,提问,为什么要对重复语义的数据进行下采样?3、基于客户类型和产品的采样,因为很多产品是热品,导致对话内容有偏,用户类型一样,需按照类型调整整体比例采样。提问,为什么要这么采样?步骤3️⃣.制定训练数据集我们直接把输出当作 target 进行训练。使用的 lora 训练,但是 lora alpha 设定成为4倍的时候达到了比较好的效果,经验值不同任务不一样,提问,在各种情况下要怎么调?步骤4️⃣.dpo训练问题:v1版本训练时,很多输出内容是对的,但是输出的语气不太像真人,机器人味还是很严重。解决方案:由于训练本身是有 ground truth 的,因此使用v1训练的模型,预测训练集,使用大模型对比两者语气不符合训练集的拿出来,使用训练集的 ground truth 和模型的预测数据作为 dpo 训练对,对v1版本模型重新训练。📳这里老师只是简要进行概括解答,具体情况和详细解答可以咨询辅导,如果想了解项目辅导,提升面试能力,欢迎后台联系。#算法# #简历中的项目经历要怎么写# #算法岗面试# #互联网大厂招聘#
点赞 评论 收藏
分享
评论
6
30
分享

创作者周榜

更多
牛客网
牛客企业服务