大模型海文

2025-06-24 10:39 已编辑西安交通大学人工智能发布于湖南

关注

大模型面试 | 大模型评估全攻略

攻略
🌈【大模型评估全攻略】！LLM七大核心评估维度保姆级拆解💯
👉🏻预训练→SFT→RLHF→数据集→RAG→Agent→Prompt
🔥一、预训练评估
评估大型语言模型（LLM）的预训练效果需要从多个维度综合考量，涉及基础语言能力、下游任务表现、知识掌握、推理能力等。
🔥二、SFT评估
评估大型语言模型（LLM）在监督式微调（Supervised Fine-Tuning, SFT）后的效果，需要结合任务目标、领域特性和模型能力设计多维度的评估体系。
🔥️三、RLHF评估
评估大型语言模型（LLM）在通过RLHF（基于人类反馈的强化学习）后的效果需要从多个维度综合考量，包括生成质量、安全性、对齐性、任务完成度等。
🔥四、数据集评估
在评估数据集的质量时，可以从以下几个关键方面进行评估：
1. 数据多样性
2. 数据平衡性
3. 数据完整性
4. 数据一致性
5. 数据与任务的适合性
6. 标注准确性
🔥五、RAG评估
从召回、排序、生成、整体四个维度来评估RAG性能。使用了多种指标，如准确率（Correct）、错误率（Wrong）、失败率（Fail）、BERTScore、ROUGE Score等，以全面评估生成答案的质量。
🔥六、Agent评估
现如今Agent开发工具/框架不断出现，但如何全面地对Agent进行评估却很困难，本文就从介绍一些主流的Agent/LLM-as-Agent评估工作来看看是否能得到一些启发。
🔥七、Prompt评估
评估Prompt的好坏需要一个全面和多维度的方法，结合自动评估指标、人工评估和用户反馈等多种手段。选择合适的评估方法和技术，能够有效提升Prompt的质量和生成效果，进而提高模型的整体性能和应用体验。通过不断优化和改进Prompt设计，可以实现更自然、更准确、更有效的自然语言。

#算法##大厂##面经##大模型面试##大模型##大厂算法岗##秋招##互联网大厂##字节跳动##算法实习##实习#
#找工作##面试#

全部评论

推荐最新楼层

大角牛向前冲958

门头沟学院算法工程师

mark

点赞回复分享

发布于 2025-11-18 20:14 湖北

喜欢拱白菜的小白菜在求职

湖南大学机器学习

大佬，求完整资料

点赞回复分享

发布于 2025-07-17 21:22 湖南

01-20 10:15

叮咚买菜_咚力生（管理方向）(准入职员工)

shein内推，shein内推码

业务一面--30mim自我介绍在安克创新的产品运营主要做了什么?未来的职业规划方向？产品经理和产品运营的区别?两者重叠的核心部分是什么？为什么想做产品运营？为什么实习都不超过半年？这次实习的预期时长与到岗时间？需求收集与过滤占比较高，能接受吗？（其余为面试官讲解岗位内容）二面-25min自我介绍未来希望做产品运营还是产品经理？对该产品的哪条业务线感兴趣？B端产品和C端产品的区别?为什么想做B端产品？（过往为电商运营经验）一周出勤时间？英语听说读写水平？英语自我介绍英语问答：能否接受跨国会议的时差？全球超级独角兽SHEIN26届校招网申开启【关于Shein】全球领先的跨境电商，服务于150+个国...

点赞评论收藏

分享

01-21 17:26

杭州电子科技大学大数据开发工程师

一个故事看懂LLM/Agent/Skills/Prompt/MCP 之间的关系

我们把 AI 当做一个人：大脑（LLM）负责想与写；执行逻辑（Agent）负责推进到交付；经验手册（Skills）提供目录化的可复用 Prompt 与标准流程；工具接口（MCP）把外部能力接进来完成执。A2UI 负责把 Agent 的意图变成可交互界面，并把用户操作回传给 Agent。LLM 是这人的大脑：负责理解你在说什么、推理怎么做、把答案表达出来。但光有大脑不等于能把事办成。Agent 可以比作一个人做事的思考逻辑 + 执行逻辑：拿到目标后先梳理逻辑、拆步骤、设检查点，决定先做什么、后做什么，并在关键节点停下来确认，确保事情按流程推进到交付。Skills 是他随身带的一本经验手册：里面是...

点赞评论收藏

分享

01-08 13:17

西南大学运营

完蛋啦，面评很脏了

各位大佬能指点一下吗😭😭寒假找实习投了一百多个了，只有快手有一个面试结果还在一面挂了是不是因为十月份疯狂海投结果字节三次一面挂，网易挂两次脏了面评啊

叁六玖：学校和简历都好，只投了100多个感觉有点少哈，牛友多投点

面试太紧张了怎么办？

点赞评论收藏

分享

01-21 15:48

门头沟学院数据分析师

AI coding时代，前端已死？

最近和老同事们闲聊，聊其他事时大家可能争得面红耳赤，但一提到前端开发，我们都异口同声地觉得，前端这行已经明显在走下坡路了。经常听到小道消息，比如某个前端团队解散，只剩几个人并到后端去；某个部门今年没前端岗位；团队有前端离职后，就不补人了。当然，还没到大规模失业的程度，公司大多是慢慢缩减前端HC，但这衰退趋势太明显了。我觉得，这颓势从微服务推崇的前后端分离成为主流时就埋下了种子，AI Coding只是加速了它。前端基本只负责接收后端结果渲染页面，一个前端往往对接四五个后端，因为页面搭建不需要那么多人（现实就是这么残酷）。大厂的中台有海量成熟UI组件，npm一拉就能用，快速搭页面，然后定义变量调用...

AI时代，哪些岗位最容易...

点赞评论收藏

分享

评论

4

27

招聘动态

牛客网申助</br>备战春招大杀器

27届寒假/转正实习汇总

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客十周岁生日快乐 #

207023次浏览 1933人参与

# 你觉得什么岗位会被AI替代 #

35028次浏览 233人参与

# 我和mentor的爱恨情仇 #

101830次浏览 922人参与

# 一人一个landing小技巧 #

143297次浏览 1499人参与

# 如果工作一直消耗情绪还要继续做吗 #

18160次浏览 83人参与

# 四大天坑是哪四家？ #

101867次浏览 235人参与

# 互联网公司评价 #

479993次浏览 4091人参与

# 机械人春招想让哪家公司来捞你？ #

377889次浏览 3127人参与

# 聊聊你的被动加班经历 #

5144次浏览 81人参与

# 在国企工作的人，躺平了吗？ #

392255次浏览 3951人参与

# 我的求职精神状态 #

422625次浏览 3075人参与

# 华为工作体验 #

289527次浏览 1376人参与

# 实习吐槽大会 #

405080次浏览 2168人参与

# 工作压力大怎么缓解 #

139070次浏览 1261人参与

# 找工作以来，你最看不惯__ #

18184次浏览 353人参与

# 你的mentor是什么样的人？ #

49326次浏览 705人参与

# 第一次找实习，我建议__ #

69380次浏览 841人参与

# 实习教会我的事 #

52360次浏览 413人参与

# 实习怎么做才有更好的产出 #

14406次浏览 265人参与

# AI coding的好用工具分享 #

22315次浏览 411人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务