算法打工人阿旺 level
获赞
165
粉丝
200
关注
0
看过 TA
1232
中山大学
2026
算法工程师
IP属地:山东
高级算法工程师,多模态/大模型/搜广推方向辅导
私信
关注
查看25道真题和解析
0 点赞 评论 收藏
分享
✅一面 1、广告领域如何运用运筹优化方法?(我是运筹转广告)2、介绍一个最有难度、体现能力的项目3、手撕:计算岛屿数量4、手撕:最长递增子序列✅二面1、介绍项目,项目拷打2、手撕:给定邻接矩阵和集合a和b,找出总距离最近的a-b连接集合,要求a都用到,b不用都用到且可以重复;要求时间复杂度N3、数学题:三门问题,三扇门其中一个有奖品两个是空的,你先选一扇,然后主持人打开一扇是空的,此时问是否要更换选择4、数学题:10个同学,至少两个生日为同一天的概率是多少?✅三面1、项目问答2、强化学习有哪些分类3、介绍一下PPO、DQN,写一下DQN损失表达式4、LR和DNN中最后一层作全零初始化是否会影响训练5、LR的梯度表达式6、手撕:给定一个数列,要求找到一个分隔点划分A1和A2,使得A1和A2的方差最接近(要求时间复杂度 O(n), 空间复杂度 O(1))回答:最直接的方法是遍历各个分割点,每次重新计算两边的方差,最后取最好的一个分割点,这个复杂度是 N^2。优化复杂度的方法就是,把方差的公式分解开,在遍历分割点的过程中,把一些能重复利用的信息利用上,变成 N 的复杂度。✅HR面1、弱化技术地介绍一个最有成就感的项目2、问一些团队合作、沟通交流、克服压力的经历3、选择 offer 考虑哪些因素 4、未来职业规划📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看18道真题和解析
0 点赞 评论 收藏
分享
✅第一轮 1、首先用ppt做了自我介绍然后就开始讲解在第一段实习期间做的工作内容,讲的非常非常详细,包括目前多模态对抗攻击的现状是怎么样的(你论文处在什么样的位置),还讲解了我论文的主要创新点是什么,优势是什么2、同时,还引入到了另外一篇在投的论文,说明了其对于chatgpt攻击的可行性,因此引出了他对攻击整个方法的思考与了解,想要了解对抗攻击都有哪几种分类,哪几种扰动策略,他们分别的难点是什么等等3、然后我又将其引入了soft prompt中,讲解其在recall presicion的trade off以及内容合规(让模型生成该问题不可回答)等等上面的可行性4、之后介绍了另一段实习这边在语言大模型和多模态大模型上面的工作内容,介绍多模态大模型的工程经验等等。5、最后做了一个重排列表的题。6、然后反问环节,问了他们组的工作内容,他们组目前有两个北斗,两个L8,其中一个入职是L7,然后一年升为L8,公司蛮看重,给你申请资源做。7、又问了我目前的职业发展规划是怎么样的✅第二轮1、首先用ppt做自我介绍,直接转到了实习部分2、先介绍了第一段实习,问我论文的主要创新点是什么3、然后介绍了第二段实习,先仔细介绍了第二段实习经历,包括业务情况、5b大模型的各种训练情况、多目标训练情况,并详细的介绍了我的soft prompt4、之后就是多模态大模型的各种细节5、最后让我找一篇论文进行讲解,主要创新点什么的6、最后做了个题:二叉树根节点到叶子结点的所有路径和✅HR面问了很多,超级详细📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看13道真题和解析
0 点赞 评论 收藏
分享
1️⃣问题背景DPO的偏好对齐缺陷:DPO通过对比正例(偏好响应)和负例(非偏好响应)优化模型,但人类标注的偏好数据中,长度与质量常存在隐含相关性(例如,长响应可能因更详细而被偏好)。若正例普遍比负例长,DPO模型会简单学会“生成更长文本”而非“生成更好内容”。反之,若正例更短(如简洁回答),模型可能过度缩短输出,损害信息量。后果:模型可能通过“走捷径”(利用长度偏差)而非真正提升语义质量来优化偏好目标,导致生成结果不可控或低效。2️⃣论文核心思想提出一种方法,解耦(disentangle)长度与质量,使DPO模型能够:独立学习响应质量,不受长度偏差干扰。显式控制生成长度(例如指定生成长度或保持与参考长度一致)。关键方法:长度归一化偏好损失(Length-Normalized Preference Loss):在DPO损失函数中引入长度归一化项,消除长度对偏好得分的影响。例如,将正负例的对数概率差除以各自长度,避免模型仅通过增加/减少长度优化损失。长度条件化生成(Length-Conditioned Generation):在模型输入中显式加入长度控制标记(如),引导模型按指定长度生成。3️⃣ 解决方案的技术细节长度归一化损失函数:修改标准DPO损失,将响应概率按token数量归一化:其中 (|y|) 是响应长度, 是温度系数。长度控制机制:在训练时,将目标长度作为附加条件输入模型(如前缀标记)。在推理时,用户可通过指定长度标记(如)精确控制输出。4️⃣解决的问题与贡献消除长度偏差:证明标准DPO会因长度偏差过拟合,而新方法能分离长度与质量的影响。可控生成:用户可独立调节长度和质量(例如生成“简短但高质量”或“长且详细”的响应)。效果提升:在人工评估中,模型在相同长度下的语义质量显著优于原始DPO。5️⃣ 实验验证数据集:在Anthropic Helpful/Harmless、OpenAI Summarization等偏好数据集上测试。结果:原始DPO模型生成长度与训练数据正相关,而新方法生成的响应长度更接近用户指定值。在固定长度下,新模型的响应质量(如相关性、连贯性)优于基线。整体上,对上述问题的解决的途径如下所示:数据平衡:确保正负例的长度分布均衡,或显式构造“短正例+长负例”的数据以抑制过长输出。长度惩罚:在推理阶段加入长度归一化(如beam search中的长度惩罚)或显式约束生成长度。正则化:在训练时加入长度相关的辅助损失(如惩罚与目标长度偏离的输出)。
0 点赞 评论 收藏
分享
✅一面 1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的2.介绍一下 CLIP3.了解 LoRA 吗,LoRA 微调的原理是什么4.了解哪些多模态大模型,简要介绍几个5.BLIP 的三个损失函数分别是什么,数据是怎样清洗的6.BLIP2 相对于 BLIP 有哪些改进,BLIP3 又有哪些改进7.Qwen-VL 的三个训练流程分别是什么,有什么作用8.视觉编码器和 LLM 连接时,使用 BLIP2 中 Q-Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点9.代码:实现多头自注意力✴️一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的✅二面1.自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题2.了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 \sqrt{d_k} 的原因是什么3.后来有哪些比较经典的基于 Transformer 的语言模型,Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2 又有哪些改进4.了解 RLHF 吗,DPO 和 PPO 有什么区别,Loss 是什么样的,各自的优缺点是什么5.介绍一下 CLIP,还了解什么其他的对比学习方法6.开放题:了解哪些多模态大模型,目前多模态大模型最大的问题是什么7.代码:1143. 最长公共子序列✴️二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些✅三面1.自我介绍,然后详细过了一下项目2.了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer、BERT、GPT、LLaMA、Qwen 这些,以及当时的 o1 推理模型3.平常有尝试过训练过大模型吗,规模小一点的也没关系4.聊天,包括职业规划等等✴️三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧📳**************************************。
查看20道真题和解析
0 点赞 评论 收藏
分享

创作者周榜

更多
关注他的用户也关注了:
牛客网
牛客网在线编程
牛客网题解
牛客企业服务