投的岗位比较杂,主要是NLP,也包括一些多模态、大模型、推荐相关的岗位,最终拿到了腾讯、顺丰、平安金服和迪子的offer,华子、京东和百度的池子。总结一下,首先算法的问题会问得非常杂,主要根据你的项目经历,面试官一般会从你的经历里挑和他们工作内容比较相关的点提问,然后不断扩展;反而八股文问的不多,一般是一些中小厂喜欢问八股。最后是自己的一点见解,对于非研究性质的算法岗位,论文的权重并没有很大(也看面试官的喜好),反而是相关的竞赛/实习经历会非常重要。有意找算法岗的uu,一定要去搜广推(可以再加一个大模型)相关的岗位刷刷实习经历。以下是整个秋招的面经: 用语言介绍一下Transformer的整体流程 深度学习的三种并行方式:数据并行,模型并行,流水线并行 Deepspeed分布式训练的了解,zero 0-3的了解。 对于CLIP的了解 说几种对比学习的损失函数,以及它们的特点和优缺点 说说大模型生成采样的几种方式,它们的特点和优缺点比较 损失函数中温度的作用 BLIP的细节。(面试中提的问题是BLIP为什么将训练分成两个阶段) Visual Encoder有哪些常见的类型? 深度学习中常用的优化器有哪些? SimCSE的了解 prenorm和postnorm LLaMA 2的创新/ChatGLM的创新点/Qwen的创新点/Baichuan的创新点 LLM的评估方式有哪些?特点是什么?(中文的呢?) 文本生成模型中生成参数的作用(temperature,top p, top k,num beams) LoRA的作用和原理 CoT的作用 神经网络经典的激活函数以及它们的优缺点 softmax函数求导的推导 BERT的参数量如何计算? AUC和ROC batch norm和layer norm 大模型训练的超参数设置 经典的词向量模型有哪些? InstructGPT三个阶段的训练过程,用语言描述出来(过程,损失函数) 大模型推理加速的方法 Transformer中注意力的作用是什么 RNN、CNN和Transformer的比较(复杂度,特点,适用范围etc) AC自动机 产生梯度消失问题的原因有哪些? 大模型的幻觉问题 大模型训练数据处理 RLHF的计算细节 构建CoT样本的时候,怎么保证覆盖不同的场景? 召回的三个指标:Recall、NDCG、RMSE RoPE和ALiBi 交叉熵、NCE和InfoNCE的区别和联系 贝叶斯学派和概率学派的区别 一个文件的大小超过了主存容量,如何对这个文件进行排序?应该使用什么算法? Python中的线程、进程和协程 python中的生成器和迭代器