算法打工人小旺 level
获赞
71
粉丝
103
关注
0
看过 TA
507
中山大学
2025
算法工程师
IP属地:山东
咨询辅导请联系牛客账号:算法打工人阿旺
私信
关注
✅一面 1.自我介绍,问实习和论文2.看你实习微调过Qwen2,说说Qwen2的模型结构吧,Qwen2相比Qwen1做了哪些改进3.为什么现在 Decoder - only 成为大模型的主流架构,相比于 Encoder - Decoder 的架构好在哪里4.讲一下 RoPE 吧,目前常用的位置编码还有哪些, RoPE 有什么优点(相对位置、外推性……),如何进一步外推5.为什么有了 SFT 之后还需要 RLHF6.PPO和 DPO 的主要思想是什么, DPO 相比 PPO 的 RLHF 做了哪些改进,除此之外还知道哪些 RL 算法,知道 DeepSeek 的 GRPO 吗7.代码:23.合并 K 个升序链表一面整体来说还是比较基础的,都是一些八股的知识,没有考什么自由发挥的题。不过力扣还是难的,出了一道 hard✅二面1.自我介绍,选一个做的好的实习或者论文讲一下,这里问的比较细,动机是什么,为什么用当前的方案2.了解 KV cache 吗, GQA 的思想是什么3.讲一下 FlashAttention 的思想和做法4.除了刚刚说到的这些,还了解过哪些模型训练推理优化的方法( DeepSpeed ,数据并行,张量并行,流水线并行……5.开放题:如果要提升大模型的多轮对话能力,你有哪些可以改进的点6.代码:刚刚提到了 GQA ,写一下 GQA 吧二面更偏底层优化,没有过多的问一些大模型结构方面的东西,应该是考虑到一面都问过了。整体的考察比较灵活一些✅三面:1.自我介绍,过实习和论文,这里面试官会穿插问一些八股的知识,比如了解 Qwen 的结构吗,微调的数据配比是怎样的2.大模型的灾难性遗忘问题怎么解决3.了解 RAG 吗, GraphRAG 的做法4.场景题:目前有一些专业领域知识,比如医疗知识或者法律条文,准备做一个智能助手,要让你搭建一个 RAG 链路,会怎么做5.开放题:用过豆包吗,觉得目前豆包还存在什么问题6.代码:416.分割等和子集三面一些八股还是问的比较常规的,但是自由发挥的题目有点多,感觉有点难答,不过好在面试官会进行启发,抛出一些小问题来引导回答📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
✅一面 1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的2.介绍一下 CLIP3.了解 LoRA 吗, LoRA 微调的原理是什么4.了解哪些多模态大模型,简要介绍几个5.BLIP的三个损失函数分别是什么,数据是怎样清洗的6.BLIP2相对于 BLIP 有哪些改进,BLIP3又有哪些改进7.Qwen- VL 的三个训练流程分别是什么,有什么作用8.视觉编码器和 LLM 连接时,使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点9.代码:实现多头自注意力一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的✅二面1.自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题2.了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 dk \ sqrt { d _ k }\ sqrt [ d _ k }的原因是什么3.后来有哪些比较经典的基于 Transformer 的语言模型, Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2又有哪些改进4.了解 RLHF 吗, DPO 和 PPO 有什么区别, Loss 是什么样的,各自的优缺点是什么5.介绍一下 CLIP ,还了解什么其他的对比学习方法6.开放题:了解哪些多模态大模型,目前多模态大模型最的问题是什么7.代码:1143.最长公共子序列二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些✅三面:1.自我介绍,然后详细过了一下项目2.了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer 、 BERT 、 GPT 、 LLaMA 、 Qwen ix ,以及当时的o1推理模型3.平常有尝试过训练过大模型吗,规模小一点的也没关系4.聊天,包括职业规划等等三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
大模型就业方向主要有两个:大模型应用和基座大模型。基座大模型的特点是要求高,招收的人数少,真正做基座的公司也不多。所以大模型应用反而是大部分同学实际工作的方向,大模型应用的覆盖范围广,相对要求低一些。🌟大模型应用的方向:✅搜索推荐广告:生成方向,比如自动化生成图片和视频;文本方向,比如相关性;其他方向,比如搜索推荐中的召回,重排序;✅AI 原生方向:主要是基于大模型出来的新 app ,比如豆包,元宝,夸克, Kimi 等;·和 LLM 更加匹配的方向:比如智能客服,比如 chatApp ;✅传统行业:很多传统行业,比如食品公司,MCN公司都在做 AI 转型,期望 AI 给原有行业带来新的机会;✅具身智能:机器人公司,比如宇树智能。🌟大模型应用的要求:1.大模型的基础流程:预训练,后训练等基本流程要了解;自回归和基于 Diffusion 的训练方法;2.RAG :文本拆解的方法;召回模型和优化,排序模型和优化; RAG 模型和生成联合优化;3.Agent :基本原理,比如 Plan , Memory , Tool - Use ;如何优化比如 Tool 的使用, Plan 能力的加强; MCP 协议的原理等;4.多模态:多模态大模型的基本方法,领域内多模态能力如何加强🌟大模型应用招聘要求:2025年,任何方向,要有项目,且有一定的深度或者创新;或者本人的简历很好(比如 Top 985,论文等)。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
🍓PPO ( Proximal Policy Optimiz 强化学习算法。它的核心思想是通过"限制策略更新的幅度"来确保训练的稳定性。这意味着 PPO 不会让模型策略在一次更新中发生剧烈变化,从而避免训练崩溃。它主要解决的是在有明确环境反馈(奖励)的情况下,如何让智能体学会在环境中获得更高的累积奖励。 PPO 适用于那些需要与环境进行大量交互的任务,比如机器人控制、游戏 AI 训练、自动驾驶决策等。它是一种模型无关的算法,通过不断地试错和优化,让模型掌握在特定环境下的最佳行为策略。🍓DPO ( Direct Preference Optimization )大语言模型( LLM )的"偏好对齐"问题。传统上, LLM 的偏好对齐需要用到强化学习从人类反馈中学习( RLHF ),其中一个复杂步骤是训练一个奖励模型。 DPO 的创新在于它跳过了这个中间步骤,直接从"人类 pairwise 偏好数据"中优化策略。这意味着,如果我们有数据表明"输出 A 比输出 B 好", DPO 可以直接利用这个信息来调整 LLM 的参数,让模型更倾向于生成像 A 这样的内容,而不是 B 。它的核心假设是,偏好数据本身就蕴含了对策略的约束,无需额外学习奖励函数。 DPO 本质上是一种偏好对齐算法,专注于让模型输出与人类价值观或特定偏好保持一致,而不是在某个环境中最大化奖励。它特别适用于对话系统、内容生成等需要模型输出符合人类直觉和偏好的场景。🍓GRPO ( Generative Ranked Preference Optimization ) J 以看作是 DPO 的进一步扩展和完善,主要针对生成式模型的复杂偏好优化,特别是当偏好数据是"排序型"而非简单的二元比较时。例如,当人类用户对模型生成的多个输出给出了一个排序结果(比如" A > B > C ",表示 A 最好, B 次之, C 最差)时, GRPO 能够利用这种更丰富的信息。它的核心思想是通过建模这种排序关系,让模型更精准地理解"更好"的梯度,从而提升生成内容的质量和一致性。 GRPO 的本质是生成式模型的排序偏好优化算法,是 DPO 在多候选排序场景下的自然延伸,适用于长文本生成、多轮对话连贯性优化等复杂生成任务。🍊总结来说,这三者的核心差异在于: PPO 优化的是环境奖励◇ DPO 优化的是人类的 pairwise 偏好,而 GRPO 则更进一步,优化的是多候选的 ranked 偏好。它们分别对应了不同的任务需求和数据类型,在实际项目中选择哪种算法,需要根据项目的具体目标、可获取的数据类型以及对模型行为的期望来综合考量。✴️✴️部分关于 PPO、DPO、GRPO 大模型八股面试题1. PPO 通过"限制策略更新幅度"来避免训练崩溃,在实际项目中,如果不幸遭遇训练不稳定甚至崩溃,应该优先从 PPO 的哪个核心机制入手排查?2. DPO 声称跳过了 RLHF 中训练奖励模型的中间步骤,这在实践中为大语言模型的偏好对齐带来了哪些显著的工程简化和效率提升?3. GRPO 专为处理"排序型偏好数据"而设计,在实际生成式模型项目中,当面对用户提供多轮对话的连贯性或长文本摘要的逻辑顺序等复杂偏好时, GRPO 相比 DPO 能提供哪些 DPO 无法直接提供的优势?4. PPO 在机器人控制这类需要大量环境交互的任务中表现出色,但在类似文本生成这种没有明确环境反馈的场景下,其核心局限性体现在哪里?5. DPO 虽然简化了偏好对齐流程,但它对"偏好数据质量敏感"。在实际项目中,如果收集到的 pairwise 偏好数据存在噪音或标注不一致, DPO 模型的训练会面临哪些挑战?6. GRPO 需要"更高质量的 ranked 数据"且"标注成本高",在实际项目预算有限的情况下,如何权衡 GRPO 可能带来的收益与数据标注的高昂成本?7.在 PPO 实际部署中,如果模型在训练后期出现性能停滞不前或小幅震荡,除了学习率衰减,还应检查 PPO 的哪些特定参数配置以尝试突破瓶颈?8.当 DPO 训练出的 LLM 在特定类型问题上仍然输出不符合人类偏好的内容时,排查问题时除了检查偏好数据集本身,还有哪些关于 DPO 核心假设的方面需要考虑?9.在多候选文本生成任务中,如果 GRPO 训练的模型未能有效捕捉到用户对文本之间细微排序差异的偏好,除了数据量不足,还可能是什么原因导致的?10. PPO 中"重要性采样"和"剪辑( clip )"机制在实际工程中是如何协同工作,以确保策略更新的稳定性的?请避免涉及公式,从概念上解释。11. DPO 通过直接优化策略来最大化"更优输出"的概率,这在没有显式奖励模型的背景下, DPO 是如何从人类偏好中"学习"到什么才是"更好"的?12. GRPO 如何将"多个输出的排序结果"这种复杂信息转化为模型可学习的优化目标,进而指导生成式模型输出更符合排序偏好的内容?13.如果一个团队从 PPO 转向 DPO 来优化大语言模型,他们在新项目启动前需要重新思考哪些与数据收集、模型架构或训练流程相关的核心假设和实践?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
🌟Encoder 架构的词嵌入模型数据格式:[ CLS ]句子 A [ SEP ]句子 B [ SEP ]并行计算:同时感知上下文,计算速度快向量表示: Encoder 会在输入的最前面加一个特殊的[ CLS ]标记。在经过计算后使得[ CLS ]标记向量能够代表整句话的含义Qwen3 Embedding 基于Qwen3模型,嵌入模型将单个文本段作为输入,用[ EOS ]标记所对应的向量代表整句话的向量。Qwen3 Embedding 的训练过程1.使用大合成数据进行弱监督学习利用Qwen3基座模型直接合成数据,而 BGE 与E5等模型都是从开源社区收集数据。2.利用高质量合成数据进行 SFT 对筛选出的高质量合成数据和公开监督数据集进行监督训练。3.模型合并将微调过程中的多个模型检查点保存,采用 slerp 技术进行模型融合,增加泛化能力。🌟Qwen3 Embedding 的数据合成Qwen3 Embedding 模型加入信息检索、比对挖掘、分类和文本相似度四类合成数据。以信息检索为例1.输入:多语种文档+候选角色Qwen3-32B决策:选择最可能对文档感兴趣的角色、问题类型与难度(高中/大学的知识)2.构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。🌟Qwen3 Embedding 的新用法Qwen3 Embedding 模型的 query 前能加一个 prompt ,这个 prompt 会与 query 一起向量化。那么我们就可以在向量化 query 前加一个 prompt :寻找写作风格相似的其他文档。🌟总结🍊1.训练数据不同。以前词嵌入模型采用公开数据,现在的训练数据会使用大模型加工合成,更精细可控,站在了巨人的肩膀上。2.模型结构不同。在生成式大模型采用 Decoder 架构后,词嵌入模型也借鉴了 Decoder ,使用[ EOS ]标签对应的向量来表示句子向量。3.训练方法改进。 Encoder 架构的训练方式是 Mask 猜词与相似度计算。而Qwen3词嵌入模型采用多阶段训练与合并结果,让模型效果更上一层楼。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享
今天给大家分享一份热乎的大模型应用开发面经。1️⃣时间范围近半年2️⃣先说总结(1)面试内容 & 难度个人觉得,在 LLM 应用的面试题上,没有太多复杂、高深的问题,不像上来让你说一下分布式锁怎么设计然后死扣设计细节或是描述一下 MVCC 原理这种偏高难度的八股文问题(当然也遇到了一两次)。(2)offer会有很多横向对比,如果你期望薪资比较高,对方说要在等等,基本上凉了。大部分涨幅基本是不到 20% 的,但我的期望是 30% 左右,最后还是拿到了。(3)再总结如下:每次面完都要复盘,没答好的问题,一定要重新梳理答案。没把握问题的可以直接说不会,别给个你自己都听不懂的答案。多看技术文章,扩展技术视野,提高二面面试官对你的印象。终究还是要看效果,看落地效果。3️⃣面试题1.LLM 基础:大模型是怎么训练出来的?2.Transform 的架构,Encoder 和 Decoder 是什么?3.Function Call 是怎么训练的?4.微调的方案有哪些?自己做过没有?5.大模型分词器是什么?6.Embedding 是什么?7.你们用的那个模型?8.Lib:介绍一下 langchian9.介绍一下 autogen有没有用过大模型的网关框架(litellm)为什么手搓 agent,而不是用框架?10.mcp 是什么?和 Function Call 有什么区别?有没有实践过?A2A 了解吗?11.Prompt:ReAct 是啥?怎么实现的?CoT 是啥?为啥效果好呢?有啥缺点?Prompt Caching 是什么?温度值/top-p/top-k 分别是什么?各个场景下的最佳设置是什么?12.RAG:你介绍一下RAG 是什么?最难的地方是哪?文档切割策略有哪些?怎么规避语义被切割掉的问题?多路召回是什么?文档怎么存的?粒度是多大?用的什么数据库?为啥要用到图数据库?向量数据库的对比有没有做过?Qdrant 性能如何?量级是多大?有没有性能瓶颈?怎么规避大模型的幻觉?微调和 RAG 的优劣势?怎么量化你的回答效果?例如检索的效果、回答的效果。13.workflow:怎么做的任务拆分?为什么要拆分?效果如何?怎么提升效果?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看24道真题和解析
0 点赞 评论 收藏
分享
1.决策树与随机森林区别2.GBDT的原理、 XGBoost 与 LightGBM (项目涉及会问到)3. XGBoost 的其他变体( CatBoost 等)4. Transformer (这个这个超级超级重要!!)5.手撕 Self - Attentin 、 Multi - Head Attention6.特征归一化( LN / BN )7.交叉熵损失(字节常考,交节)8.优化器( SGD / Adam / Adagrad )9.L1/L2正则化( LightGBM 中也会用到)10. Dropout 原理11.模型初始参数为0的问题12.梯度消失与梯度爆炸及其解决方法13.Wide& Deep 模型(也可以准备一下,很多工业界还用这种类似的模型,有 wide 侧和 deep 侧,说不定面试官会感兴趣)14. DeepFM 模型15. DIN 模型、 DIEN 模型(特征处理)16.多目标学习( MMOE 、 ESMM ,可以了解 PLE )17.DIN模型、 SIM 模型18.DCN模型和其他交叉网络( LHUC 、 SENet 、 FiBiNet )19.冷启动策略(新闻推荐项目也会涉及冷启)20.重排规则(可以看王树森的课程简单了解)21.A/ B 测试的分桶方式是什么?22.推荐系统的短期消费指标?23.推荐系统的北极星指标(最关键指标)?24.推荐系统的转化流程是什么?25.矩阵补充模型原理和损失函数26.召回的正负样本选择(曝光未点击的能否作为负样本)📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看26道真题和解析
0 点赞 评论 收藏
分享
非科班0基础极限转行算法经验分享✅搜广推方向:①先看《利用python进行数据分析》第二章第三章(不用看文件操作)大概半天就能掌握python的语法。不懂的地方千万不要死磕,直接问大模型。以chatbox举例(图3.4.5)看不懂的概念/代码直接输入进去,chatbox会解释的很详细。②学《李沫的动手学深度学习》只学两个部分:1pytorch基础概念比如张量和广播机制,了解MLP,2看transformer这一章(同时在网上找一下讲解视频多看几遍。其他部分时间不够可以不看~③然后学蓝色的《互联网大厂推荐算法实战》④看王树森的8H推荐网课。⑤看王喆的《深度学习推荐系统2.0》⑥找个天池竞赛看懂代码,魔改不魔改看个人需求。⑦学有余力的可以看看相关论文最好是开源的跑通以后包装一下。✅LLM方向基础①②同理,但是这块我也没太学明白所以没啥路线只能给大家分享一下资料。1.复旦大学的《大语言模型从理论到实践》第二版2.斯坦福的cs33。 这两个我感觉学明白以后别的资料都不用看了,直接看自己感兴趣方向的论文就行。另外0基础的同学,刚开始入门的时候,有不会的问题一定不要自己卡着,我刚开始学的时候经常开三四个大模型的窗口,轮流问。并且不同的模型最强的地方不一样,比如gpt逻辑能力强,可以拿来解释代码、搭框架;claude写代码比较厉害,deepseek擅长搜索。但是买那么多ai不仅贵,网页切来切去还麻烦,chatbox一个窗口就可以用十多个很热的模型,是一个集成式ai工具箱,不用科学上网,用起来相对比较方便。chatbox还有网页版,轻量不下载,即开即用,一个api可以同时支持五个ip登录~💣注意:我上面给出来的学习路线是有先后顺序的,这个顺序是我自己踩出来的坑😭一定要注意。后面有空可以细说一下坑在哪里还有半个月0基础刷lc的经验教训。📳对于想求职算法岗的同学,************,提升面试能力,******。
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
RAG基本是转大模型应用层的必备项目,但是其实优化策略非常多,要体现深度的行业✅如何写一个有深度 RAG 项目经历包含以下内容:1、逻辑框架2、示例描述3、简历模版1️⃣明确项目背景与动机问题陈述:说明当前大模型在特定领域存在的局限(如知识更新滞后、幻觉问题等),以及为何选择 RAG 方法来弥补这些不足。在工业场景中,主要以下3个原因:🌟知识库的即时更新:大模型的训练数据是有时效性的,所以外挂知识库🌟数据的隐私性: tob 场景中,公司的数据是有隐私性要求的🌟业务场景:描述项目的应用场景(例如:智能问答、知识管理、客户支持等),以及采用 RAG 后能为业务带来的改进。2️⃣详细阐述系统架构与核心流程1.数据准备阶段2.数据提取与清洗:说明如何收集多源数据,进行格式统一和预处理。3.文本分割策略:描述如何根据 Embedding 模型的 Token 限制进行智能切分,保证语义完整性。向量化与入库:指出使用哪种预训练 Embedding 模型(如M3E、 BGE 等)以及如何构建向量索引(例如利用 FAISS 、 Milvus 等)。应用阶段4.检索策略:介绍相似性检索、全文检索以及多路召回(例如倒排排序、 RRF 融合)的具体实现。5.Prompt 设计与生成:说明如何构建有效的 Prompt ,将检索到的文本与原问题融合,调用大模型生成答案,并描述如何调优 Prompt 以应对幻觉问题。6.模块化设计:如果有采用模块化或迭代优化的策略,也要重点说明,比如如何分层次、分模块实现不同功能,从而提升系统稳定性和扩展性。参考:这些部分可以参考业内成熟实践,如目 RAG 优化方案:案例+代码+图解文章的思路。3️⃣突出个人贡献与方法论落地1.方法论指导:详细描述你在项目中如何运用理论指导实践,比如数据预处理、向量检索算法的选择、 Prompt 工程调优等。2.创新点与优化措施:列举你提出的关键改进措施,如如何降低幻觉风险、提高召回准确率、优化系统响应速度等。3.量化成果:用具体数据展示优化效果(例如准确率提升20%、响应速度提升30%等)。示例描述:“在项目中,我主导设计了数据分割和向量化流程,通过引入动态文本切分策略,将检索召回准确率提升了15%,同时优化了 Prompt 设计,问答准确率提高20%。”📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务