日常实习 字节大模型llm二面

被横向挂了,希望发出来对大家有帮助!
1.项目介绍
2.训练样本大概多少条
3.用户反馈怎么做的
4.MOE 激活的分布,怎么确定是 MOE 的效果而不是单纯 ffn 参数量增大的效果
5.有考虑用别的强化学习的方法吗
6.dpo 的公式是什么
7. grpo 了解吗
8.kvcache 怎么做的,了解大模型中别的提高效率的办法吗
9.sgd 是什么, Adam 相对于 sgd 改进了什么位置编码
10.手撕 transformer 并计算 flops 和内存开销
全部评论

相关推荐

03-21 04:30
门头沟学院 Java
发点面经攒攒人品~1.实习介绍2.拷打第一个项目3.拷打第二个项目4.在向量化之前,为什么要对长文档进行切片?如果不切片会有什么后果?5.切片时设置重叠区域的作用是什么?这个比例你通常怎么来确定?6.讲一下稠密向量与稀疏向量的区别,分别适合处理什么样的搜索需求?7.向量库检索出的Top-K结果,如果K值设置得过大,对后续的生成质量有哪些负面影响?8.余弦相似度和欧氏距离在衡量文本相似性时,各自的优缺点是什么?9.为什么在初筛召回之后,还要加一个Rerank模型?它能解决向量搜索的哪些局限?10.如果文档发生了局部更新,如何通过增量索引来避免全量重新向量化?11.在RAG的生成阶段,如何在Prompt中设定边界条件来防止模型在没搜到内容时产生幻觉?12.了解HyDE吗?介绍一下原理,它在处理模糊提问时有哪些优势?13.随着超长上下文模型的出现,你认为传统RAG架构的必要性是否降低了?14.你了解哪些大模型推理框架?SGLang相比vLLM的PagedAttention在推理延迟上有哪些优势?15.调用大模型API时,为什么要使用asyncio异步编程?它在处理高并发请求时有何优势?16.针对大规模PDF解析这种任务,你选择多线程还是多进程?17.如何确保Agent返回的结果是标准的JSON格式?如果模型输出中有多余的说明文字,你在后端如何提取?18.场景题:对于RAG,如果检索到了针对同一故障的两份手册,内容相互冲突,请你设计一套逻辑,让模型能够识别冲突并优先选择时效性更高的信息?19.手撕:第k大元素
查看19道真题和解析
点赞 评论 收藏
分享
多模态模型横向对比除了 Video-LLaMA,还了解哪些主流多模态大模型?→ 常见的有 LLaVA、Flamingo、BLIP、BLIP-2、KOSMOS、PaLI 等简单介绍 ALBEF 和 BLIP 这两个模型的核心设计→ ALBEF:基于图像 - 文本对比学习,搭配动量蒸馏来优化图文对齐效果;BLIP:引入 captioner 生成高质量图文对,再结合 filter 机制筛选优质数据BLIP-2 的整体结构是什么?两阶段训练流程是怎样的?用到了哪些损失函数?→ 结构:在 ViT 和大语言模型之间插入 Q-Former 作为中间桥梁→ Stage1:冻结 ViT 和语言模型,只训练中间的 Q-Former→ Stage2:冻结语言模型,将 Q-Former 与 LM 连接,做指令微调→ 损失:ITC(图文对比损失)+ ITM(图文匹配损失)+ LM 生成损失微调方法(PEFT 全家桶)了解 PEFT 吗?再讲讲 LoRA,重点说明低秩假设的合理性→ PEFT 是参数高效微调的统称,核心是只训练少量参数而不动原模型权重;LoRA 假设模型权重更新量 ΔW 具有低秩特性,将其分解为 A×B,只训练 A、B 两个低秩矩阵,既节省显存又能保留效果除了 LoRA,还有哪些 PEFT 方法?Prefix-tuning 和 P-tuning 有什么区别?→ 其他方法:Adapter Tuning、Prefix-tuning、P-tuning、IA³ 等→ Prefix-tuning:在输入序列前加可学习的 prefix,作用于注意力的 K/V 矩阵,更适合 decoder-only 架构→ P-tuning:用小型网络(如 LSTM)生成连续的 soft prompt,解决离散 prompt 不稳定的问题,更适配 encoder-decoder 模型大模型训练范式你项目中用到的大模型结构是什么?多模态特征是如何喂给大模型的?→ 示例流程:视频帧 → TimeSformer 提取时空特征 → 特征池化 → 线性投影对齐到文本维度 → 拼接到文本 prompt 之前 → 输入 LLM大模型在做了指令微调后,为什么还需要 RLHF?→ 指令微调只是让模型学会遵循指令,但输出可能更偏向 “模板化”;RLHF 是通过人类偏好对齐,让模型输出更符合人类价值观、更自然、更有用的回答,解决 “有用性” 和 “安全性” 问题了解 RLHF 吗?描述它的完整训练流程→ 三阶段流程:① SFT 微调:用高质量指令数据对预训练模型做监督微调,让模型学会基本指令遵循② 训练 Reward Model(RM):用人类标注的偏好数据训练奖励模型,学习给不同模型输出打分③ PPO 优化:用 RM 作为奖励信号,通过 PPO 算法更新策略模型,最大化 RM 给出的奖励,实现与人类偏好对齐手撕 LeetCode 原题:合并 k 个升序链表→ 核心思路:用小根堆维护 k 个链表的当前节点,每次弹出最小值节点并入结果链表,再将该节点的下一个节点入堆,直到所有链表遍历完毕;时间复杂度 O (N log k),N 为总节点数
查看9道真题和解析
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
正在热议
更多
# 春招至今,你的战绩如何? #
10491次浏览 92人参与
# 你的实习产出是真实的还是包装的? #
1853次浏览 42人参与
# 米连集团26产品管培生项目 #
5932次浏览 215人参与
# 军工所铁饭碗 vs 互联网高薪资,你会选谁 #
7561次浏览 43人参与
# 简历第一个项目做什么 #
31664次浏览 335人参与
# 重来一次,我还会选择这个专业吗 #
433439次浏览 3926人参与
# MiniMax求职进展汇总 #
24003次浏览 308人参与
# 当下环境,你会继续卷互联网,还是看其他行业机会 #
187103次浏览 1122人参与
# 牛客AI文生图 #
21422次浏览 238人参与
# 不考虑薪资和职业,你最想做什么工作呢? #
152348次浏览 888人参与
# 研究所笔面经互助 #
118898次浏览 577人参与
# 简历中的项目经历要怎么写? #
310217次浏览 4210人参与
# AI时代,哪些岗位最容易被淘汰 #
63642次浏览 822人参与
# 面试紧张时你会有什么表现? #
30505次浏览 188人参与
# 你今年的平均薪资是多少? #
213074次浏览 1039人参与
# 你怎么看待AI面试 #
180035次浏览 1255人参与
# 高学历就一定能找到好工作吗? #
64324次浏览 620人参与
# 你最满意的offer薪资是哪家公司? #
76485次浏览 374人参与
# 我的求职精神状态 #
448043次浏览 3129人参与
# 正在春招的你,也参与了去年秋招吗? #
363373次浏览 2638人参与
# 腾讯音乐求职进展汇总 #
160638次浏览 1111人参与
# 校招笔试 #
470875次浏览 2964人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务