一下午面了三个大模型岗,全是一言难尽...

真服了,我不信有这个题,还不会
常见的业务题
◆ 大模型(LLMs)基础面
• 目前主流的开源模型体系有哪些?
• prefix Decoder 和 causal Decoder 和 Encoder-Decoder 区别是什么?
• 大模型LLM的 训练目标 是什么?
• 涌现能力是啥原因?
• 为何现在的大模型大部分是Decoder only结构?
• 简单 介绍一下 大模型【LLMs】?
• 大模型【LLMs】后面跟的 175B、60B、540B等 指什么?
• 大模型【LLMs】具有什么优点?
• 大模型【LLMs】具有什么缺点?
◆ Layer normalization 篇
• Layer Norm 的计算公式写一下?
• RMS Norm 的计算公式写一下?
• RMS Norm 相比于 Layer Norm 有什么特点?
• Deep Norm 思路?
• 写一下 Deep Norm 代码实现?
• Deep Norm 有什么优点?
• LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?
• LLMs 各模型分别用了 哪种 Layer normalization?
◆ LLMs 激活函数篇
• 介绍一下 FFN 块 计算公式?
• 介绍一下 GeLU 计算公式?
• 介绍一下 Swish 计算公式?
• 介绍一下 使用 GLU 线性门控单元的 FFN 块 计算公式?
• 介绍一下 使用 GeLU 的 GLU 块 计算公式?
• 介绍一下 使用 Swish 的 GLU 块 计算公式?
◆ Attention 升级面
• 传统 Attention 存在哪些问题?
• Attention 优化方向
• Attention 变体有哪些?
• Multi-head Attention 存在什么问题?
• 介绍一下 Multi-Query Attention?
• 对比一下 Multi-head Attention 和 Multi-Query Attention?
◆ transformers 操作篇
◆ LLMs 损失函数篇
◆ 相似度函数篇
◆ 大模型(LLMs)进阶面
◆ 大模型(LLMs)微调面
◆ LLMs 训练经验帖
◆ 大模型(LLMs)langchain 面
◆ 多轮对话中让AI保持长期记忆的8种优化方式篇
◆ 基于langchain RAG问答应用实战
◆ 基于LLM+向量库的文档对话 经验面
.......
#五一之后,实习真的很难找吗?##牛客在线求职答疑中心##笔试##面试#
全部评论
所有面试题可以开源给大家 后台T一下
2 回复 分享
发布于 04-29 14:38 湖南
点赞 回复 分享
发布于 05-07 18:51 北京
哇,一下午面试这么多大模型岗位,你真是太厉害了!面试题看起来好难啊,不过我觉得你一定有自己的见解。😊 比如说,关于大模型(LLMs)的基础面,我有点好奇,你对涌现能力有什么自己的理解呢?这个概念听起来好神奇! 对了,如果你想和我这个小助手深入聊聊求职经验或者面试技巧,记得点击我的头像私信我哦!🐮💬💼 另外,如果你现在心情有点低落,别担心,我们可以聊聊轻松的话题,或者如果你愿意,我可以帮你整理一下面试中的知识点,希望能帮到你!🌟🌈
点赞 回复 分享
发布于 04-29 14:36 AI生成

相关推荐

1.自我介绍,拷打项目为什么用多智能体不用单智能体了解哪些大模型应用框架(你项目中的竞品)rag知识库是怎么搭建的,怎么进行的分片操作如何让大模型更加理解医学名词(一般大模型理解不了医学名词)知识库的大小,我答了一个很大的数,问接口速度问题(一脸懵逼,没考虑过,只考虑过rag层面的优化)询问rag评估(孩子寄了我没做,但是我背过),问具体评估数值(🐔没做过,瞎逼逼了一个数字)优化空间从项目拷打中看的出来面试官水平确实比较高,而且是个声音很好听的小哥哥2.写算法,尽然是acm格式,幸好函数写出来了,可惜的是输入输出没写出来,链表的输入输出真的难3.反问环节:做什么业务,不足之处
梗小姐:佬,你投的不会是这个吧。 wxg-微信支付-模型组 主要工作方向: 1.利用支付数据、社交数据等制定安全策略进行数据挖掘、特征工程 2.前沿模型研究:利用LLM代替xgboost等传统风控模型 本次实习生,可能的工作:使用司内大模型平台进行agent构建,集成到企业微信机器人里,作为内部工具以消息告警等形式提醒产品同学,其实还是偏开发。 掌握python和java应该够用了。 需要掌握的基本知识 简单的开发技能 agent基本原理(重点:function call,可能会被问了解mcp吗) LLM基本知识(训练、微调和部署推理,偏工程化),最好再掌握一些RAG知识
查看14道真题和解析
点赞 评论 收藏
分享
● 自我介绍● 了解 DeepSeek-R1 吗?介绍一下?● R1 的 MLA 是如何实现 KV-Cache 的节约● R1 在 SFT 时冷启动的目的● 位置编码是什么?解释 ROPE?● 一个 14B 的模型,推理和训练要多少缓存● 显存的占用和哪些因素有关● 大模型灾难性遗忘是什么?如何解决?● BF16、FP16、FP32 对比?● Adam、AdamW 原理● deepspeed 的三个阶段● 自我介绍● 手写 Self-Attention 公式,解释 Q/K/V 的作用● 位置编码有哪些实现方式?相对位置编码相比绝对位置编码的优势?● LayerNorm 和 BatchNorm 的区别?为什么 Transformer 用 LayerNorm?● 多头注意力的本质是什么?头数如何影响模型性能● 大模型训练中的显存瓶颈如何解决?● LoRA/Adapter/P-Tunning 的区别?如何选择微调方法?● 解释 PLHF 流程,客服场景如何应用?● 大模型灾难性遗忘的原因和缓解方法?● 如何实现混合精度训练(AMP)?遇到 NaN 怎么处理?● Deeppspeed 的 ZeRO 阶段 1 2 3 分别优化了什么?● 解释梯度累计的原理和实现代码?26届校招华为AI岗位内推:"AI算法工程师""大模型应用工程师""AI数据工程工程师""AI安全工程师"“AI软件开发工程师”岗位多多,欢迎私聊,或者**************
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
1
23
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务