快手 AI Agent开发一面 攒人品

发点面经攒攒人品~
1、为什么引入父子索引?

2、为什么在检索阶段引入 BM25?

3、rerank 后一般返回几个块?

4、rerank 后的 topK 截断是怎么做的?

5、讲一下上下文工程是怎么设计的。

6、记忆机制是怎么做的?

7、Function Calling 是怎么设计的?

8、Agent 的任务规划是怎么做的?

9、Prompt 注入攻击如何防御?

10、工具调用的安全控制是怎么实现的?

11、讲一下分布式令牌桶限流。

12、漏桶算法是什么?

13、滑动窗口算法是怎么实现的?

14、滑动窗口和令牌桶相比有什么区别?

15、布隆过滤器讲一下。

16、数据库索引失效的情况有哪些?

17、like 查询会不会导致索引失效?

18、RAG 系统如何评测?
全部评论

相关推荐

继续来分享下最近的面经~欢迎友好讨论,信息共享1. Transformer 为什么能替代 RNN 成为大模型主流架构?2. Self-Attention 的计算过程是什么,时间复杂度为什么高?3. Multi-Head Attention 的作用是什么,为什么要分多个头?4. 位置编码为什么必要,绝对位置编码和相对位置编码有什么区别?5. 什么是 KV Cache,它为什么能显著提升推理效率?6. Prefix Cache 和 KV Cache 有什么区别,分别适合什么场景?7. 为什么大模型推理通常是 memory bound,而不是 compute bound?8. Batch 推理和单请求推理的吞吐与延迟 tradeoff 是什么?9. Continuous Batching 解决了什么问题,为什么对推理服务很重要?10. Prefill 和 Decode 两个阶段的性能瓶颈分别在哪里?11. 大模型采样里的 temperature、top-k、top-p 分别会怎样影响输出?12. 贪心解码、束搜索、随机采样分别适合什么生成任务?13. 重复惩罚和长度惩罚分别是为了解决什么问题?14. 为什么模型有时会出现“复读机”现象,通常怎么缓解?15. 量化是什么,INT8、INT4、FP16 的核心区别是什么?16. 推理量化会对模型效果造成什么影响,如何评估是否值得量化?17. 张量并行、流水线并行、数据并行分别适合哪个阶段?18. 单机多卡部署大模型时,通信开销主要来自哪里?19. 为什么 GPU 显存是大模型部署的核心约束之一?20. 模型参数量、上下文长度、并发数三者之间是什么关系?21. 什么是 MoE 模型,为什么它能在参数规模很大时控制推理成本?
查看21道真题和解析
点赞 评论 收藏
分享
评论
2
24
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务