算法打工人阿旺 level
获赞
166
粉丝
201
关注
0
看过 TA
1235
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
04-29 07:46
已编辑
中山大学 算法工程师
0 点赞 评论 收藏
分享
结合最近辅助修改的简历及项目,老师总结了部分大模型微调简历的踩雷点。🙅‍♂️错误示范:在 x任务中,获取 xxx 条数据,通过规则 or 脚本清洗出 x 条数据,然后微调 y 大模型,在业务上提升 x 个点。✍🏻原因:大模型微调的平台是现成的,基模是现成的,体现不出核心能力。✅应该怎么写?首先介绍业务背景:业务是一个销售对话业务,机器人是销售,代替真人,直接面对用户。我们会给模型设定任务,任务是 prompt 。步骤1️⃣.提取训练数据问题:1.真人通话每通电话任务是未知的,我们训练数据是任务+通话的 pair 对。2.真人通话很乱,与客户的对话是各种交叉的,导致 asr 后并不是一人一轮。解决方案:1.首先通过大模型 prompt 对该通电话提取任务,得到任务+ pair 对。需要用到 cot + reflection +多 Ilm 一致性+ debating 的模式。2.使用大模型根据以上任务和真人对话,让大模型编写出通话内容。提问,为什么要编写而不是直接用?步骤2️⃣.制定训练数据集问题:1、正常的对话内容,前面几句和后面几句基本上一致的。都是问候和拜拜,但是也有一些差异。2、因为都是相似场景,虽然任务不同,但是很多场景语义很相似。解决方案:1、基于轮次的权重采样:通过轮次设定权重进行 weighting sample 。解决问候和拜拜的高占比问题。2、基于语义的采样:使用 bert 对对话内容进行 embedding ,然后使用层次聚类通过调节阈值聚类出相似语义的类。对一个类里的样本进行随机采样,提问,为什么要对重复语义的数据进行下采样?3、基于客户类型和产品的采样,因为很多产品是热品,导致对话内容有偏,用户类型一样,需按照类型调整整体比例采样。提问,为什么要这么采样?步骤3️⃣.制定训练数据集我们直接把输出当作 target 进行训练。使用的 lora 训练,但是 lora alpha 设定成为4倍的时候达到了比较好的效果,经验值不同任务不一样,提问,在各种情况下要怎么调?步骤4️⃣.dpo训练问题:v1版本训练时,很多输出内容是对的,但是输出的语气不太像真人,机器人味还是很严重。解决方案:由于训练本身是有 ground truth 的,因此使用v1训练的模型,预测训练集,使用大模型对比两者语气不符合训练集的拿出来,使用训练集的 ground truth 和模型的预测数据作为 dpo 训练对,对v1版本模型重新训练。📳这里老师只是简要进行概括解答,具体情况和详细解答可以咨询辅导,如果想了解项目辅导,提升面试能力,欢迎后台联系。
简历中的项目经历要怎么写
0 点赞 评论 收藏
分享
今天老师结合辅导经验,分享一些丰富项目经历的方法,供各位同学参考学习。✅关于怎么找项目这个问题,其实来源可以是很多的,比如数据竞赛: Kaggle 、百度 AlStudio 、阿里天池等✅Github 高 Star 项目✅项目辅导:在辅导中老师会带各位同学接触实际大厂的高级别项目,能够满足技术栈和大厂契合,有应用场景,有可以发布论文的创新点或者能解决业务问题的整体Pipeline,并且有明确的优化思路(比如版本迭代)。也很重要的是✴️你能否把你的项目完整且精彩的写在简历上并且讲述给你的面试官听。📳过程分为三步:1️⃣明确想做的任务和方法:任务:拿 NLP 举例,主要分为四大任务:分类任务、生成任务、序列标注、句子关系判断方法:主流方法 or 前沿方法。还是拿 NLP 举例,主流方法可以是 BERT ,前沿方法当然就是大模型微调啦2️⃣找到相关代码+多迭代明确任务和方法之后,就可以找找 Github 先跑通一个 Version 1了。接下来比较关键的一步就是如何优化你的 Version 1了。比如你可以从数据预处理、加入小 trick 、对比不同模型性能等多种角度来以此尝试,试图能否提升性能与效果。其实这就是面试官想看到的,因为大家可以想想互联网的一个最重要的特点不就是飞速的迭代嘛,很多的算法岗业务也是如此:要不就是开辟新业务,要不就是用新方法重新做一遍旧业务,一旦优化成功了,你的新模型就成功上线了。3️⃣写好故事+讲好故事简历书写(这一篇笔记先不具体展开了),但大致可以按照下面一部分的几个角度来切入讲好故事:面试前提前准备好下面几个问题,数据是什么,方法是什么(对应八股要准备好),项目的目的是什么﹣﹣让面试官有个总体了解是怎么迭代算法与模型的,性能对比情况如何﹣﹣体现你的工程能力与优化能力,遇到过什么困难,是如何解决的﹣﹣提升真实性,让面试官直观的感受到你是自己做的,还有什么改进空间﹣﹣体现你的思考与沉淀。📳如果想进行更加详细具体的项目辅导,提升面试能力,欢迎后台联系。
简历中的项目经历要怎么写
0 点赞 评论 收藏
分享
今天老师给大家梳理了部分大厂搜广推算法岗面试真题,供各位同学参考学习。1.PPNet的核心思想是什么?为什么要 stop gradient ?什么时候不需要这样操作?2.多目标模型很容易遇到跷跷板问题或者两个 loss 数量级相差很大,优化速度差异太大,你知道有什么优化方法吗?3.NEG loss 和 NCE loss 有什么区别? infonce loss 公式是什么4.召回业务一般怎么定义负样本? bce loss 的公式是什么?简述一下 Pointwise , pairwise 和 listwise 的区别是什么?召回一般用什么 loss ?5.粗排的作用?怎么验证粗排精排的链路一致性?用什么指标可以衡量链路一致性?6.大模型了解吗?怎么在推荐中应用?比如怎么在召回中用?大模型训练分成哪几个阶段?简述一下各个阶段在干什么7.千万级别的整型数组,怎么获取其中出现次数最多的前 N 个数?(考数据结构)8.讲一下你知道的机器学习里面的算法,比如 AdaBoost , GBDT , XGBoost 这些。 Bagging 和 Boosting 的区别?随机森林是什么9.讲一下Word2vec是怎么做的?怎么降低计算复杂度?10.你知道的中心极限定理有哪些?11.双塔模型优势和缺点,怎么改进?12.粗排的目的是什么?有哪些指标,粗排应该向精排看齐吗?13.说一下 BN 的公式,哪几个参数是在训练时更新,在推理时还更新吗?简述一下测试过程中的 BN 怎么算。 BN 和 LN 的区别?14.当神经网络的权重初始化为0时,会遇到什么问题?15.你能抽象地归纳出序列建模发展的脉络吗?以及它的最终形态应该是什么样子?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看15道真题和解析
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
0 点赞 评论 收藏
分享
✅一面 1️⃣深挖多模态论文2️⃣介绍transformer架构3️⃣详细说一下Decoder的因果注意力 QKV分别来自哪4️⃣Attention为什么要做scaled 不做会怎么样 为什么用根号d_k5️⃣Transformer怎么做加速训练(KV缓存) 训练和推理有什么区别(并行化)6️⃣深挖多模态大模型论文用的video-llama 讲一下大模型的结构7️⃣论文用了CoT讲一下论文的CoT是怎么样的8️⃣微调用的LoRA介绍一下LoRA9️⃣LoRA初始化怎么做的,用的秩是多少,为什么不选其他的数1️⃣0️⃣知道deepspeed和megatron吗?分别介绍一下1️⃣1️⃣论文用的deepspeed详细讲了一下三个stage分别是什么✅二面1️⃣深挖多模态和大模型的论文2️⃣Decoder文本生成有哪几种方法3️⃣还知道哪些多模态大模型4️⃣介绍一下ALBEF、BLIP5️⃣BLIP2的结构是什么  两阶段怎么训练的 有哪些损失6️⃣知道PEFT吗 讲一下LoRA7️⃣还有什么微调方法 -> prefix-tuning和P-tuning 两者分别是怎么做的 为了解决什么提出的8️⃣后面就是一些场景题✅三面1️⃣深挖论文2️⃣讲一下multi-head attention 用pytorch手撕一下 要可以实现cross attention的3️⃣讲一下你用的大模型是什么结构 特征是怎么喂给大模型的4️⃣大模型训练为什么不用SFT5️⃣LoRA是什么?有什么好处6️⃣知道RLHF吗?讲一下训练流程7️⃣接下来就是好几个场景题,电商相关的,用大模型解决prompt应该怎么设计,怎么处理prompt的输出,怎么过滤错误格式的输出📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看23道真题和解析
0 点赞 评论 收藏
分享
✅一面 对着项目问的比较多1️⃣线性回归的假设条件是什么2️⃣介绍lstm,transformer这些3️⃣transformer 相比于 seq2seq,它的增量点在什么地方4️⃣因果推断和(事件发生前拟合一个模型,使用这个模型对事件发生后进行预测从而得到效应),增量在什么地方,有哪些本质上的区别(跟我的项目相关)5️⃣对于销量预测模型,你有什么思路;怎么进行模型选型;如果没有其他特征,只有按时间变化的销量,可以怎么预测?6️⃣一个人投篮的命中率是60%,是投10次至少命中7次的概率大,还是投100次至少命中70次的概率大(大数定律)7️⃣手撕:两个椭圆x^2+y^2/2=1,x^2/2+y^2=1,求这两个椭圆相交部分的面积(蒙特卡洛模拟,好像还可以使用极坐标直接求解,忘了)比较注重数理(可能也是因为我是数理出身)✅二面1️⃣50个黑球和50个白球,分别放进两个框,怎么放置,可以让一个人拿到白球的概率最大2️⃣一个细胞的生命有三个小时,每个小时都会分裂一次,到T时刻会有多少细胞呢?3️⃣希望在算法岗从事什么样子的工作?4️⃣技术栈有哪些?5️⃣是否了解大模型?6️⃣大模型灾难遗忘怎么解决7️⃣是否了解微调、量化?8️⃣大模型应用场景是什么?9️⃣Pytorch 算法框架是否熟悉?✅三面1️⃣问对深度学习那块比较熟,回答时序预测,问有无读过现在的SOAT方法,回答无(没读过啥paper)2️⃣什么样的embedding是好的embeding,怎么评估3️⃣选择unieval模型是怎么做的模型选型4️⃣拿到一个新方向是怎么调研的,怎么去找论文的5️⃣介绍 transformer,每个encoder的结构是什么6️⃣介绍 self-attention7️⃣怎么理解q,k,v8️⃣可以使用同一个W_q和W_k吗9️⃣为什么q×k之后要scale,d 是什么1️⃣0️⃣时空图(论文,但是别人做的这part,自己不太了解了)1️⃣1️⃣手撕:打家劫舍(偏重对算法的理解,和项目实现上的一些细节)📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看27道真题和解析
0 点赞 评论 收藏
分享
✅一面 1️⃣时间:1h+自我介绍2️⃣项目介绍:问的很细,过程中不停打断提问算法竞赛项目,整体数据处理流程、模型效果评估方法、心得体会3️⃣八股:简单介绍一下 BERT 和 TransformerAttention 和 self-attention 有什么区别?4️⃣Transformer 的复杂度Bert 用的什么位置编码,为什么要用正弦余弦来做位置编码?还知道其他哪些位置编码?5️⃣除了 bert 还做过哪些模型的微调?为什么现在的大模型大多是 decoder-only 的架构?6️⃣讲一下生成式语言模型的工作机理用过 LoRA 吗?讲一下原理?7️⃣算法题最大子段和跳台阶其他问后续安排和实习时长,以及反问✅二面1️⃣自我介绍2️⃣项目:深挖八股Transformer 结构和 LSTM 的区别和优势,Transformer 怎么体现时序信息?3️⃣Transformer Encoder 和 Decoder 的输入输出和结构BatchNorm 更多用在视觉上,LayerNorm 更多用在语言上,为什么有没 chatGLM,LLaMA 等部署、微调经历?4️⃣有没有了解过大模型加速推理?5️⃣讲一下 Flash Attention?6️⃣算法题先说思路再写代码1、数组中的第K个最大元素2、数组 nums 表示若干个区间的集合,请你合并所有重叠的区间,并返回一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间。输入: nums =[[1,3],[2,6],[8,10],[15,18]]输出:[[1,6],[8,10],[15,18]]📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看20道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务