科大讯飞飞星二面 拼多多算法三面

面试时间8月29日

科大讯飞飞星计划NLP 二面
感觉是要寄,这面试官问问题很不清晰。。。
1. 直接查户口

2. 跳过项目、实习直接八股轰炸(感觉是直接回我不感兴趣)
3. 问训练一个通用大模型的步骤(我理解成base模型了,流程里面只说了预训练,然后他意思是chat那种,就还得包含SFT、RLHF)
4. 问Transformer encoder decoder结构上的不同(答了双向注意力和单向注意力,面试官说还有呢,答了transformer里面一个self attention,一个cross attention,问还有呢,答了transformer中encoder self attention + FFN,decoder self attention + cross attention + FFN,问还有呢?还有啥啊?你让说结构区别的啊,难道他其实想问输入输出、训练任务的区别?反正给我问急了?)
5. 问RLHF的流程,问到RM的训练的时候突然问RLHF的loss是什么,顺势就以为问的是RM的loss,答交叉熵,说不对???不是吗?后面想了一下他可能是想问PPO的loss
6. 后面确实问了PPO的优化目标。。。
7. 最急的来了,问有多个弱分类器,怎么利用生成一个更强的分类器,答voting,然后直接问了机器学习ensemble的方法,bagging、boosting、stacking,勉强答上来,然后问这些方法对数据的处理有什么不同,只记得bagging是有放回的采样。。。(机器学习的八股确实还得再加强)
8. python相关 装饰器、*args、**kwargs
9. 问大量文本怎么生成一个字典(理解了一会才明白问的是词表生成,答了BPE的流程)

10. 反问环节,说是做RAG的,不是那你连我的LLM实习经历也不问?八股也不问RAG?

总结,目前为止科大讯飞两次面试体验都很差,一面好像就半个小时?查户口加听我讲项目、无手撕无八股直接结束。二面面试官问题都说不清楚,让我理解困难,然后实习、项目一个不问,也没有手撕,40分钟不到就结束,麻麻滴,想挂我直说好吧😠

拼多多算法工程师三面
1. 自我介绍
2. 查户口,从本科查到研究生,问比赛经历、课程、保研blabla一堆

3. 实习介绍,全程倾听,讲嗨了
4. 研究项目介绍,全程倾听,讲嗨了
5. 问个人优点缺点、导师评价、实习leader评价等等
6. 问能不能接受拼多多的工作时间,先接受了再说,感觉11 11 6也不是不行,💰给够还是可以考虑的
7. 反问,这个面试官的组主要是做拼多多评价相关的业务

面试体验还是很好的,拼多多算是我面试流程最快的了,笔试到三面完也就半个月多一点,不知道后面还有没有HR面,先许愿一个offer好吧

#科大讯飞##拼多多##面经#
全部评论
哎 讯飞同一个面试官 比佬答的烂多了啊哈哈哈哈加油
5 回复 分享
发布于 2024-09-01 13:05 上海
你小子好强
3 回复 分享
发布于 2024-08-29 23:32 北京
科大讯飞那个我们估计是一个面试官,题目相似度极高。我觉得他好像就是记住了他问这几个问题的答案。。。都和他说这个方向RLHF没做过了还问。好像是因为base地没hc了,上来就侮辱三连,你一点也不匹配你为什么要投我们,你觉得你优势在哪,学数学的你也不是算法科班啊,你怎么没有论文。。。我现在就很后悔没骂回去
1 回复 分享
发布于 2024-09-27 10:00 陕西
encoder decoder那个,面试官应该是想听你说decoder部分的注意力机制有mask吧
点赞 回复 分享
发布于 2024-09-25 00:19 浙江
你好,请问科大讯飞你后来还有消息吗?
点赞 回复 分享
发布于 2024-09-14 16:35 上海
大佬pdd三面完有后续吗?我同算法岗上周三三面完一直没有后续通知😢
点赞 回复 分享
发布于 2024-09-02 13:10 福建
牛逼
点赞 回复 分享
发布于 2024-08-30 09:43 江苏

相关推荐

发点面经攒攒人品1、你在线上或离线训练时,过拟合怎么处理?直接说你最有效的三个方法和拿到的收益。2、把 BN 讲透:原理是什么;训练期和推理期用的统计量有何不同;跟 LN、GN 比,分别什么时候用、怎么取舍。3、分类和回归你最常用哪些损失?你更偏好哪几个,为什么(从鲁棒性、梯度、数值稳定性上谈)。4、L1 和 L2 正则你怎么选?它们各自的效果与风险是什么,工程里你是怎么权衡的。5、二元和多分类的交叉熵你怎么写?在工程里你怎么做数值稳定实现。6、AUC 到底在统计上代表什么?你怎么计算它,在线上业务里你如何解释“这次 AUC 提升”的含义。7、你做 CTR/CVR/CTCVR 联合建模时,ESMM/ESMM2 是怎么推导与工程落地的?线上到底带来了什么收益。8、Transformer 里因果注意力的 Q/K/V 各从哪来?Mask 具体怎么实现。9、Scaled Dot‑Product Attention 为啥要除以 √dk?如果不除会出什么数值或训练问题。10、把 Transformer / Decoder‑only 的整体结构过一遍,各个组件分别在干什么,有哪些常见变体。11、位置编码这条线你怎么选:绝对 PE、相对 PE、RoPE 各自的思路、优势和局限,结合你的项目谈取舍。12、长上下文怎么搞?Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力,你的实战方案是什么。13、KV Cache 在训练和推理中的差异是什么?它的加速价值有多大,吞吐与延迟你是如何权衡的,vLLM/paged‑attention 需要注意什么。14、PEFT 方案里(LoRA/QLoRA/Prefix/Prompt‑Tuning/Adapter)你怎么选?说说稳定训练的经验。15、SFT 和对齐(RLHF/DPO/IPO/PPO)原理差在哪?在不同数据与资源条件下,你怎么选路线。16、RAG 系统你怎么设计?切分、索引、召回/重排、压缩/融合、兜底策略怎么串。17、提示词工程你是怎么搞的?System/角色/约束/分步指令怎么写,如何防越狱
查看17道真题和解析
点赞 评论 收藏
分享
给我面没招了。。。1. 项目拷打2. 详细阐述Transformer的底层原理,并说明其能够替代RNN的核心优势;结合Transformer架构的成熟度,分析Self-Attention机制在多模态对齐任务中是否存在瓶颈,以及在实际业务场景中,是否出现过注意力权重完全偏移的情况。3. 讲解LoRA的技术原理,说明LoRA是否仅能嵌入Linear层;分析LoRA无法在LayerNorm层之后插入的原因,以及该操作会对模型训练稳定性产生哪些具体影响。4. 结合实操经验,说明QLoRA降低训练资源成本的核心逻辑;列举常见的模型量化方式,并解释QLoRA选择NF4与FP16组合而非其他方案的原因,阐述NF4的分布拟合逻辑。5. 针对采用multi-query attention优化后,decoder延迟仍居高不下的问题,分析潜在性能瓶颈;探讨vLLM自带的KV Cache是否会成为推理过程中的负担。6. 分别说明Embedding模型与Rerank模型处理文本语料的核心流程,并结合实际应用场景举例说明。7. 结合过往RAG项目经验,讲解从数据清洗到检索服务上线的完整链路搭建流程,重点说明chunk切分的具体策略。8. 分析当前RAG技术落地的最大瓶颈,并阐述你在项目中采取过哪些优化手段来提升检索召回率(Recall)。9. 针对XX领域大模型的训练工作,说明SFT(监督微调)数据集的构造方法与核心思路。10. 结合LoRA微调实操经历,说明rank值的选择依据;在合并adapter权重的过程中,是否遇到过梯度爆炸问题,以及对应的解决方法。11. 结合你的模型部署相关经验,说明模型参数量与硬件算力需求之间的对应关系(例如不同参数量级模型所需的算力配置标准);以部署一个稀疏率千分之三的235B参数量MOE架构模型为例,估算其所需的算力规模。12. 在搭建RAG知识库时,若需对文档进行动态更新,你采用的是全量嵌入还是增量处理方案?若为增量处理,如何规避新旧文档数据分布不一致导致的检索偏差问题。
点赞 评论 收藏
分享
评论
16
39
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务