大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】!LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型(LLM)的预训练效果需要从多个维度综合考量,涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型(LLM)在监督式微调(Supervised Fine-Tuning, SFT)后的效果,需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型(LLM)在通过RLHF(基于人类反馈的强化学习)后的效果需要从多个维度综合考量,包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时,可以从以下几个关键方面进行评估:
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标,如准确率(Correct)、错误率(Wrong)、失败率(Fail)、BERTScore、ROUGE Score等,以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现,但如何全面地对Agent进行评估却很困难,本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法,结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术,能够有效提升Prompt的质量和生成效果,进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计,可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#
全部评论
大佬,求完整资料
点赞 回复 分享
发布于 07-17 21:22 湖南

相关推荐

1️⃣自我介绍:【⌚️10分钟】点评:流水账,有些磕磕绊绊,自我介绍环节的项目介绍的很详细,非常冗余。优化:写逐字稿,背诵,提升语言表达能力。2️⃣经常问题的问题优化:【⌚️20分钟】1:transform结构了解吗?回答点评:回答的很简单,5分吧,说了transform的结构是encode-decode结构,分块,每个块里面有四个组建,MHA、FFN、LN、残差链接,介绍和理解不深刻。提升指导:梳理回答逻辑结构,讲解MHA、FFN、LN、残差链接的添加逻辑和含义,其中MHA给出代码层面理解,从2分钟的回答变成6分钟的回答。2:多头自注意力机制是啥?公式是啥?代码你会写吗?回答点评:讲了公式,但是掌握的不够细致,pytorch代码框架不熟悉,attention_mask机制没有写出来。提升指导:讲述代码的原理,如何使用代码回答问题,展示自己的理解深刻。3:rag中的多路召回是什么?embeding为啥用智源的BGE-large/Base?回答点评:使用了BM25和向量召回,但是没有讲出来两个的区别和联系提升指导:先讲原理,再讲述下语义理解能力和泛化能力的区别,计算的效率,两个互为补充等。3️⃣不会回答的问题指导:【⌚️40分钟】1:  LN不太会回答,看网上的回答很多,但是不是理解层面。2:我的向量召回是faiss做的,和这个相关的问题我如何准备?3:经常会被问到rag用的啥框架,这个问题如何回答?还需要准备框架的知识吗?4:面试官经常问我,rag的模型是啥?有做微调吗?如果不做微调怎么回答?5:大模型还需要补充那些知识?📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看8道真题和解析
点赞 评论 收藏
分享
评论
2
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务