蹲蹲
点赞 评论

相关推荐

1. 基础概念题:什么是大模型核心加速技术中的 “算子融合”?举例说明其作用。答案要点:算子融合是将多个连续计算算子合并为一个,减少计算图中的节点数和显存读写次数,降低延迟。举例:如将 Transformer 中的 Add(残差连接)与 RMSNorm(归一化)融合,减少两次内存访问,提升推理速度。2. 技术原理题:Flash Attention V2 如何优化注意力计算效率?与 V1 的核心区别是什么?答案要点:• V1:通过分块计算注意力,减少显存占用(避免存储所有中间键值对)。• V2:引入 “内外循环交换策略”,将矩阵乘法的循环顺序调整为更适合 GPU 并行计算的模式,进一步提升计算效率,尤其在长序列场景下加速明显。3. 量化技术中,FP8、INT4 AWQ、INT4-FP8 AWQ 的适用场景和压缩率有何差异?4. RAG 系统中,文档切分粒度如何影响检索和生成效果?实际中如何确定最优粒度?5.在长序列推理场景中,PagedAttention 和 Prefix Caching 分别解决什么问题?如何配合使用?答案要点:• PagedAttention:将 KV Cache 分块存储在非连续显存中,避免显存碎片,支持处理超长序列(如百万 Token);• Prefix Caching:缓存历史对话的 KV 对,跨请求复用,减少重复计算(如多轮对话中复用上文缓存)。配合逻辑:PagedAttention 解决显存限制,Prefix Caching 减少计算量,两者结合可提升长对话场景的效率和稳定性。6. 在企业级推理场景中,如何根据需求选择量化方案?举例说明短文本高并发和长文本场景的优化策略。实时客服系统用 INT4 量化加速响应;金融报告生成场景用 FP8+PagedAttention 处理数千 Token 输入。
点赞 评论 收藏
分享
两个面试官轮流拷打!其实问的也不是很深,主要是目前AI这一块MCP,RAG这些都没接触过!大约问了一个小时左右!1:自我介绍2:介绍项目,挑一个你最熟悉的!3:项目中比较新颖的点!和已有的产品相比创新之处,优势?为什么做这个项目不做别的?4:MCP知道吗用过吗?5:提到项目掉过大模型接口,上下文过长呢?怎么处理?RAG了解过吗?6:软件开发中最熟悉哪一块的技术?比如网络,数据库,算法,数据结构?7:提到了熟悉多线程,问多线程开发容易遇到的问题?你想对其他人更熟悉多线程哪部分?觉得遇到哪种问题别人可能会问你?8:死锁?线程安全问题(提到了多线程计数器)?如何解决?9:MySQL中多线程计数如何保证线程安全?Redis呢?说了Redis单线程无线程安全问题,但是面试官说了一些东西似乎没听懂!10:乐观锁怎么个事?乐观锁CAS过程中版本匹配失败,如果抛出异常怎么办?有没有解决方法呢?之前说了可以重试,但是又问这个以为是除了抛出异常或者重试还有其他更好的方法呢!回答不知道了!11:Binglog有哪些格式?12:Seata怎么用?当时用的seata的AT还是XA?为什么用Seata?13:微服务项目和单体架构的区别?14:选的那个项目是你从自己完成的吗?前端用了什么?为什么没走前端?15:平时怎么学习的?学时间多还是敲代码时间多?反问:公司主要技术栈?主要PHP,Java主要做BI,大模型这块用python,有做机器人用C++。多久有结果?几轮面试?对我的这个表达能力,技术掌握程度等等给个评价吗?懂得挺多的!但是技术深度有点不足!
查看15道真题和解析
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务