腾讯广告秋招大模型算法一面

1.拷打实习经历,怎么做的后训练,这段基本都是我在阐述,偶尔会打断我进行提问:
a.训练电商基座为什么要用数学/代码推理数据
b.提到的几个实验是什么形式,怎么做的,也没有上线
c.这个工作是你自己完成的吗,团队分工如何?
d.说一说你们团队在过程中遇到的最大挑战
e.复现之余,有没有自己的创新点
f.业务上哪些指标提升了
2.注意到你的两段实习经历有些差别,一个是偏研究一个是偏业务应用,以后工作方向如何考虑?
基本无八股,简历过程中提到了DAPO,scaling方法等也都没追问,后面反问时候面试官意思好像他是主要做传统广告的

手撕:最长公共子序列
反问:
1.(面试官主动介绍)部门业务有哪些方向?
2.如果入职,做哪个方向的业务?
3.追问了下面试官提到的业务
全部评论

相关推荐

历经两个月的鏖战,终于拿下某大厂算法岗Offer!复盘了30道高频面试题,分享给正在备战的同学:机器学习基础(10道)手推LR推导,为什么用交叉熵而不用MSE?偏差方差分解,Bagging vs Boosting怎么对应?XGBoost相比GBDT的改进点?二阶泰勒展开的意义?特征工程怎么做?连续特征离散化的好处?类别不平衡如何处理?Focal Loss原理?正则化L1、L2区别,为什么L1能产生稀疏解?聚类算法K-Means的优缺点?如何选K?模型评估指标:AUC计算逻辑和业务含义?随机森林的随机性体现在哪?梯度消失/爆炸原因及解决方案?深度学习(10道)11. BN原理,训练和测试阶段有什么区别?12. Transformer的self-attention计算过程?为什么要除√d?13. BERT的预训练任务是什么?WordPiece作用?14. 激活函数ReLU vs LeakyReLU vs GELU?15. 优化器SGD、Adam、AdamW的区别?16. 过拟合如何判断和解决?Dropout原理?17. 多卡训练:数据并行 vs 模型并行?18. Attention的几种形式?Additive vs Dot-Product?19. 残差连接为什么有效?20. 卷积参数量和FLOPs计算?手撕代码(5道)21. 手写Multi-Head Attention22. 实现二分类交叉熵损失函数23. 快速排序/归并排序(常考!)24. 编辑距离/最长公共子序列25. 二叉树遍历(递归+非递归)业务场景(5道)26. 短视频推荐,冷启动怎么解决?27. 广告CTR预估,特征怎么设计?28. 搜索排序,如何平衡相关性和多样性?29. 用户长短期兴趣如何建模?30. 线上AB测试,指标怎么选?
查看30道真题和解析
点赞 评论 收藏
分享
继续来分享下之前的面经~欢迎友好讨论,信息共享1.什么是大语言模型的涌现能力?目前对该现象的研究有哪些发现?2.什么是 Embedding?词嵌入和句嵌入有何不同?3.大语言模型中的 Tokenization 是如何工作的?不同模型的分词算法有何差异?4.简述大语言模型中的 Prompt Engineering 技巧,如何设计有效的提示词提升模型输出质量?5.对比 Zero-Shot、Few-Shot 和 In-Context Learning,它们在大语言模型中的应用场景和局限性分别是什么?6.什么是 LoRA?它在大语言模型微调中的优势和原理是什么?7.大语言模型的 RLHF 训练流程是什么?它存在哪些潜在风险?8.介绍一下大语言模型中的知识蒸馏,它如何用于压缩模型体积?9.DeepSeek 优化了哪些?为什么不用 PPO,而是用 GRPO?10.对比大语言模型的增量推理和传统推理方式,增量推理的优势和实现难点是什么?11.大语言模型在推理时出现幻觉现象的原因是什么?有哪些缓解方法?12.大语言模型的长文本处理能力有限,目前有哪些技术可以缓解这一问题?13.什么是大语言模型的上下文窗口?扩展上下文窗口对模型性能有何影响?14.目前多模态大语言模型是如何融合文本与图像信息的?15.如何评估大语言模型的性能?常见的评测指标和基准数据集有哪些?16.单个 LLM 能否帮助用户完成完整行程规划,比如从出行到酒店都订好票?
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务