关于大模型的50道精选面试题1.简述GPT和BERT的区别2.讲一下GPT系列模型的是如何演进的?3.为什么现在的大模型大多是decoder-only的架构?4.讲一下生成式语言模型的工作机理5.哪些因素会导致LLM中的偏见?6.LLM中的因果语言建模与掩码语言建模有什么区别?7.如何减轻LLM中的“幻觉”现象?8.解释ChatGPT的“零样本”和“少样本”学习的概念9.你了解大型语言模型中的哪些分词技术?10.如何评估大语言模型(LLMs)的性能?11.如何缓解LLMs复读机问题?12.请简述下Transformer基本原理13.为什么 Transformer的架构需要多头注意力机制?14.为什么 transformers需要位置编码?15.transformer中,同一个词可以有不同的注意力权重吗?16.Wordpiece与BPE之间的区别是什么?17.有哪些常见的优化LLMs输出的技术?18.GPT-3拥有的1750亿参数,是怎么算出来的?19.温度系数和top-p,top-k参数有什么区别?20.为什么 transformer块使用LayerNorm而不是BatchNorm?21.介绍一下post layer norm和pre layer norm的区别22.什么是思维链(CoT)提示?23.你觉得什么样的任务或领域适合用思维链提示?24.你了解ReAct吗,它有什么优点?25.解释一下langchain Agent的概念26.langchain有哪些替代方案?27.langchain token计数有什么问题?如何解决?28.LLM预训练阶段有哪几个关键步驟?29.RLHF模型为什么会表现比SFT更好?30.参数高效的微调(PEFT)有哪些方法?31.LORA微调相比于微调适配器或前缀微调有什么优势?32.有了解过什么是稀疏微调吗?33.训练后量化(PTQ)和量化感知训练(QAT)与什么区别?34.LLMs中,量化权重和量化激活的区别是什么?35.AWQ量化的步骤是什么?36.介绍一下GPipe推理框架37.矩阵乘法如何做张量并行?38.请简述下PPO算法流程,它跟TRPO的区别是什么?39.什么是检索增强生成(RAG)?40.目前主流的中文向量模型有哪些?41.为什么 LLM的知识更新很困难?42.RAG和微调的区别是什么?43.大模型一般评测方法及基准是什么?44.什么是KV Cache技术,它具体是如何实现的?45.DeepSpeed推理对算子融合做了哪些优化?46.简述一下FlashAttention的原理47.MHA,GQA,MQA三种注意力机制的区别是什么?48.请介绍一下微软的ZeRO优化器49.Paged Attention的原理是什么,解决了LLM中的什么问题?50.什么是投机采样技术,请举例说明?建议算法方向的同学,先收藏!面试前可以再根据题目自己梳理下回答的逻辑及亮点。争取做到面试前心中不慌,面试时条理清晰!offer轻松握在手中~目前同花顺算法招聘专场开启中招聘对象:面向25届优秀的硕士、博士同学招聘方向:NLP算法工程师、知识图谱算法工程师、算法工程师(图形/图像/视觉)、语音算法工程师、视频生成算法工程师、推荐算法工程师、搜索算法工程师、机器学习算法工程师、代码生成算法工程师专场优势:我们拥有全方位的人才培养,配备丰富的前沿技术资源,用充足的计算资源自己去训练大模型把技术真正的用起来。有机会获得行业领先的百万级别薪酬,并进入同花顺国家级博士后工作站。欢迎有兴趣的小伙伴通过同花顺招聘官网或小程序进行报名,岗位均可以内推哦~
点赞 2
评论 1
全部评论

相关推荐

03-10 11:23
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务