大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】!LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型(LLM)的预训练效果需要从多个维度综合考量,涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型(LLM)在监督式微调(Supervised Fine-Tuning, SFT)后的效果,需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型(LLM)在通过RLHF(基于人类反馈的强化学习)后的效果需要从多个维度综合考量,包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时,可以从以下几个关键方面进行评估:
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标,如准确率(Correct)、错误率(Wrong)、失败率(Fail)、BERTScore、ROUGE Score等,以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现,但如何全面地对Agent进行评估却很困难,本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法,结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术,能够有效提升Prompt的质量和生成效果,进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计,可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#
全部评论
mark
点赞 回复 分享
发布于 昨天 20:14 湖北
大佬,求完整资料
点赞 回复 分享
发布于 07-17 21:22 湖南

相关推荐

不愿透露姓名的神秘牛友
10-29 06:45
1.自我介绍2.java中重载和重写的区别3.说一下MySQL的索引,想到什么说什么4.说一个Redis常见的缓存问题5.本科是什么专业,硕士是什么专业6.具体研究方向是什么7.项目选题怎么来的8.对测试的了解怎么样,或者说有没有自己对项目进行测试9.你用jmter会关注哪些指标10.假如一个秒杀场景,你来设计一下测试用例,多说一些,越全面越好,不用怕说错11.假如说项目上线,进行了一次秒杀活动,预期是只有一个商品能够卖出去,结果查数据库发现卖了两个,你觉得可能是哪些地方有问题12.讲一下你的智能客服是怎么实现的13.大模型去funcing call这一步的函数是你自己去完成的吗14.手撕:给一个String字符串,对其中空格部分进行一个替换,替换为 %20,其他内容保持不变,最后输出结果15.你觉得现在大模型的发展对于我们测试领域,可以有一些什么应用16.你后续对于工作上的规划大概是什么样的,升学?找工作?开发?测试?产品?17.有没有什么跟别人合作的一些事情,或者是项目18.你在这个小组里是一个什么样角色19.有没有过那种压力特别大的时候20.如果是生理上的压力,比如说做一个什么东西干到很晚21.像我们工作中,一方面需要做一个任务定一个排期,但是这三天中有很多的会议,你会怎么去应对22.假如说你负责测一个项目,然后对接一个开发的同事,有很多bug他没有去修改,处于摆烂状态,你怎么去处理23.你现在回头看的话有什么印象最深的事情
点赞 评论 收藏
分享
10-24 10:56
门头沟学院 Java
总结:40分钟,项目+结构化+手撕项目提问1.有做过AI智能体开发吗?有做过AI agent知识库建设工作吗?2.你了解AI自动化测试平台的架构和选型吗,Appium的性能并不好,为什么选择他?结构化提问1.对于视频卡顿问题定位,你会从哪些角度进行排查?(链路排查思路)追问:如何利用AI工具进行问题定位和排查?2.在综合能力维度上,分别用3个关键词形容自己的优势和劣势。(答得不好)3.在实习经历中,你对于团队做了哪些具体的事情手撕环节1.给定一个字符串,请统计字符串中括号匹配的对数。例如:{a}pp{{},有效的括号对数为2。追问:是否可以不用栈来做?反问环节1.团队的业务有哪些做一些测试提效的工具平台,有以下这些应用。第一部分:UI自动化。之前写UI自动化都是编码级的,编写用例和维护的成本比较高,很多年没有很大的突破。现在结合大模型后,开启了小范围的试点,基于文本转化为可执行的UI自动化用例。第二部分:智能归因。对于与预期不相符的case,这个case是用例设计问题,还是环境问题,还是一个bug。之前是由人来看报错,现在可以通过传入代码、报错信息、日志等信息,由大模型来做初步的判断,可以减少人力成本。其他:数据构造等场景。2.团队使用什么编程语言Java和Go比较多,前端代码用TS。
点赞 评论 收藏
分享
评论
4
27
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务