百度 大模型开发一面实习面经分享
发一下问题给大家参考,攒攒人品!
1.实习拷打
2.拷打第一个项目:如果长表格被切分到了两个不同的Chunk,如何保证大模型在回答时不丢失表头信息?为什么不直接把图片转成描述再做文本检索,而是做视觉Embedding?有什么好处?
3.拷打第二个项目:你是如何设定记忆总结的触发条件的?是根据对话轮数总结,还是根据Token消耗量来总结?如果测评量表返回的数据量非常大,超过了模型窗口,在不丢失核心指标的前提下,如何对工具结果进行预压缩?
4.为什么在做RAG时,切片不能切得太长,也不能切得太短?
5.什么是混合检索?为什么一些场景下,只用向量检索效果不好?
6.如何在Prompt中设计拒答逻辑,让模型在知识库没有相关内容时,不强行生成答案?
7.什么是CoT?它在提升Agent逻辑推理能力方面的原理是什么?
8.在Function Call的过程中,大模型返回给后端的是真实运行的结果,还是调用的意图?
9.拷打Transformer
10.了解MySQL吗?在MySQL中,如果要存储用户的对话记录,你会选择哪种字段类型?为什么?
11.Redis有哪些常见的数据结构?
12.为什么在大模型应用中,会把一些重复的问题和答案存入Redis缓存?
13.介绍一下如何利用Redis存储大模型的响应结果?
14.如果两个用户的提问意思一样但表达不同,如何判断该不该命中Redis里的缓存?
15.在分布式Agent环境下,用户的Session应该存放在哪里?
16.手撕:无重复字符最长子串
1.实习拷打
2.拷打第一个项目:如果长表格被切分到了两个不同的Chunk,如何保证大模型在回答时不丢失表头信息?为什么不直接把图片转成描述再做文本检索,而是做视觉Embedding?有什么好处?
3.拷打第二个项目:你是如何设定记忆总结的触发条件的?是根据对话轮数总结,还是根据Token消耗量来总结?如果测评量表返回的数据量非常大,超过了模型窗口,在不丢失核心指标的前提下,如何对工具结果进行预压缩?
4.为什么在做RAG时,切片不能切得太长,也不能切得太短?
5.什么是混合检索?为什么一些场景下,只用向量检索效果不好?
6.如何在Prompt中设计拒答逻辑,让模型在知识库没有相关内容时,不强行生成答案?
7.什么是CoT?它在提升Agent逻辑推理能力方面的原理是什么?
8.在Function Call的过程中,大模型返回给后端的是真实运行的结果,还是调用的意图?
9.拷打Transformer
10.了解MySQL吗?在MySQL中,如果要存储用户的对话记录,你会选择哪种字段类型?为什么?
11.Redis有哪些常见的数据结构?
12.为什么在大模型应用中,会把一些重复的问题和答案存入Redis缓存?
13.介绍一下如何利用Redis存储大模型的响应结果?
14.如果两个用户的提问意思一样但表达不同,如何判断该不该命中Redis里的缓存?
15.在分布式Agent环境下,用户的Session应该存放在哪里?
16.手撕:无重复字符最长子串
全部评论
相关推荐
点赞 评论 收藏
分享
04-08 17:36
门头沟学院 算法工程师 点赞 评论 收藏
分享
查看8道真题和解析