大模型海文

06-24 10:39 已编辑西安交通大学人工智能发布于湖南

关注

大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】！LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型（LLM）的预训练效果需要从多个维度综合考量，涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型（LLM）在监督式微调（Supervised Fine-Tuning, SFT）后的效果，需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型（LLM）在通过RLHF（基于人类反馈的强化学习）后的效果需要从多个维度综合考量，包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时，可以从以下几个关键方面进行评估：
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标，如准确率（Correct）、错误率（Wrong）、失败率（Fail）、BERTScore、ROUGE Score等，以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现，但如何全面地对Agent进行评估却很困难，本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法，结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术，能够有效提升Prompt的质量和生成效果，进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计，可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#

全部评论

推荐最新楼层

喜欢拱白菜的小白菜在求职

湖南大学机器学习

大佬，求完整资料

点赞回复分享

发布于 07-17 21:22 湖南

07-16 10:23

长安大学产品经理

字节跳动大模型｜面试实录｜待入职

一面1、自我介绍2、如何评估 AI聊天产品的好坏?3、你会用哪些指标去衡量AI对话体验?4、目前市面上的AI聊天产品，你觉得谁做得最好?5、为何现在的大模型大部分是Decoder only结构？6、介绍一下如何做竞品调研的，有哪些竞品？7、介绍一下你做过的这两个AI项目在时间规划上分别是怎样的？8、如何搭建AI 评测体系?9、离职原因二面1、自我介绍2、评测集的选择和构造，评测指标的计算评测数据如果和预期不符，你会怎么优化?3、涌现能力是啥原因？4、如何让大模型处理更长的文本？5、llama 输入句子长度理论上可以无限长吗？6、怎么确定选用什么模型以及为什么选择这个模型？7、针对智能客服项目，...

查看26道真题和解析

点赞评论收藏

分享

06-30 12:04

中山大学算法工程师

美团大模型岗面试强度，已老实

面试公司：美团岗位：大模型应用开发一面1．自我介绍＋做过的项目，项目问的很细2．了解 Deepseek -R1吗？介绍一下。3.R1的 MLA 是如何实现 KV - Cache 的节约？4.R1在 SFT 时冷启动的目的？5．位置编码是什么？解释 ROPE6．一个14B的模型，推理和训练要多少显存？7．显存的占用和哪些因素相关？8．大模型灾难性遗忘是什么？如何解决？9.BF16、FP16、FP32对比10.Adam, AdamW 原理11.deepspeed的三个阶段手撕：合并两个有序链表

美团一面2275人在聊

点赞评论收藏

分享

07-02 15:34

门头沟学院 Java

找工作见闻

是个传统行业公司，公司里打算新成立个部门，做个软件辅助他们的业务。应该是发现市面上的软件太贵，想自己做。估计一个人都没招到，公司里也没有懂软件的人。还没面试呢，就告诉我他们想让什么样的效果，问我能不能做，发了个竞品软件的文档，招java开发，让我去自训练语言大模型。

点赞评论收藏

分享

06-29 21:35

中山大学算法工程师

字节大模型面经复盘:

1️⃣自我介绍：【⌚️10分钟】点评：流水账，有些磕磕绊绊，自我介绍环节的项目介绍的很详细，非常冗余。优化：写逐字稿，背诵，提升语言表达能力。2️⃣经常问题的问题优化：【⌚️20分钟】1：transform结构了解吗？回答点评：回答的很简单，5分吧，说了transform的结构是encode-decode结构，分块，每个块里面有四个组建，MHA、FFN、LN、残差链接，介绍和理解不深刻。提升指导：梳理回答逻辑结构，讲解MHA、FFN、LN、残差链接的添加逻辑和含义，其中MHA给出代码层面理解，从2分钟的回答变成6分钟的回答。2：多头自注意力机制是啥？公式是啥？代码你会写吗？回答点评：讲了公式，但是掌握的不够细致，pytorch代码框架不熟悉，attention_mask机制没有写出来。提升指导：讲述代码的原理，如何使用代码回答问题，展示自己的理解深刻。3：rag中的多路召回是什么？embeding为啥用智源的BGE-large/Base？回答点评：使用了BM25和向量召回，但是没有讲出来两个的区别和联系提升指导：先讲原理，再讲述下语义理解能力和泛化能力的区别，计算的效率，两个互为补充等。3️⃣不会回答的问题指导：【⌚️40分钟】1:  LN不太会回答，看网上的回答很多，但是不是理解层面。2：我的向量召回是faiss做的，和这个相关的问题我如何准备？3：经常会被问到rag用的啥框架，这个问题如何回答？还需要准备框架的知识吗？4：面试官经常问我，rag的模型是啥？有做微调吗？如果不做微调怎么回答？5：大模型还需要补充那些知识？📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

查看8道真题和解析

点赞评论收藏

分享

07-25 17:25

腾讯_大数据高性能开发(准入职员工)

腾讯音乐内推

腾讯 软件开发 面经9月06日  网申9月07日  测评9月13日  一面自我介绍项目介绍零拷贝DMA缓存分配回收策略分级缓存池 扩容机制 分级策略RBACJWT加密算法es 倒排索引实现一个分词器分词算法结果集排序规则怎么判断结果和用户的相关性怎么计算相关性 频率、密度、权重限流和熔断如何实现一个限流机制场景题 QQ音乐推荐策略怎么计算用户的音乐偏好怎么计算用户和音乐的匹配度怎么设计推荐算法怎么过滤掉用户已经听过/推荐过的音乐怎么压缩听歌记录说一下布隆过滤器怎么解决哈希冲突k8snetstat、jstat命令Docker资源隔离原理HTTPS握手过程C++虚函数手撕（easy）反问全程70分...

腾讯音乐娱乐集团一面123人在聊

点赞评论收藏

分享

评论

2

15

招聘动态

滴滴

2026届秋季校招提前批

Touch CIB

数字兴业科技挑战赛

26届校招投递表格

7月更新166条网申投递链接

快手

快Star-X特别技术人才计划启动

莉莉丝游戏

2026届秋招提前批

京东2026

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 工作中哪个瞬间让你想离职 #

30599次浏览 231人参与

# 我对___祛魅了 #

1817次浏览 22人参与

# 中兴秋招 #

182270次浏览 2037人参与

# 和同事相处最忌讳的是__ #

1275次浏览 19人参与

# 机械人，你被简历秒挂的企业有哪些？ #

45446次浏览 293人参与

# 如何快速融入团队？ #

588次浏览 20人参与

# 打工人的精神状态 #

62497次浏览 1047人参与

# 职场常用语录大全 #

4833次浏览 41人参与

# 机械人，秋招第一次笔试的企业是哪家？ #

41864次浏览 335人参与

# 在职场上，你最讨厌什么样的同事 #

17361次浏览 174人参与

# 担心入职之后被发现很菜怎么办 #

142229次浏览 822人参与

# 哪些公司校招卡第一学历 #

82610次浏览 353人参与

# 职场人，说说你的烦心事 #

12422次浏览 104人参与

# 软开人，秋招你打算投哪些公司呢 #

109590次浏览 989人参与

# 秋招想进国企该如何准备 #

77291次浏览 427人参与

# 机械人晒出你的简历 #

87111次浏览 714人参与

# 工作一周年分享 #

32245次浏览 193人参与

# 金融财会交流会 #

112811次浏览 386人参与

# 如果重来一次你还会读研吗 #

180448次浏览 1809人参与

# 我的职场心眼子段位 #

36185次浏览 683人参与

# 牛油的搬砖plog #

85028次浏览 597人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务