如何对大模型的业务进行测试?

昨天面试遇到了这个问题,对这个有些疑问

我的回答是:

1.提供不同的提示词,查看返回结果的质量,与正确答案的差异

2.查看返回的响应速度

3.提供一些涉及隐私安全的、不适合的提示词,查看是否会被拒绝回答

面试官不是很满意,说我这些偏向于应用层面

刚刚查阅了一下:

可以数据收集、数据预处理、模型训练、模型验证、模型评估这样的普适方法

评价指标有F1(精确率和召回率的调和平均值)、RougeL(生成摘要和基准摘要的最长公共子序列)、sacreBLEU(生成文本与参考文本在不同长度的N元组的匹配情况)

有兄弟做实际的相关业务吗,这个问题应该怎么回答呢?求解

6.6号更新:

1.使用一些通用的数据集对模型效果进行评测(GLUE、superGLUE)

2.使用不同的任务进行评测,数学题,编程题,阅读理解,自然知识,科学知识,文本生成,翻译等

3.鲁棒性测试,提示词中间存在拼写错误 ,错别字,模糊提示等

4.不同的硬件资源对响应进行测试(类似对接口进行性能测试)

5.模拟实际用户使用场景进行提示,并收集用户反馈

#牛客解忧铺##牛客在线求职答疑中心##我的实习求职记录##帮帮团#
全部评论
哥,我看你面了一个春天了,咋还没找到实习。我找实习之前就看你了,找实习还看你在面,我都快实习一个月了打开牛客看你还在面!
点赞 回复 分享
发布于 2024-06-07 15:26 山西
根据指标调参,反转了算法就是测试,测试就是算法
点赞 回复 分享
发布于 2024-05-24 16:49 上海
我也被问过如何进行模型评估,我答了评价指标
点赞 回复 分享
发布于 2024-05-24 14:50 北京
码住
点赞 回复 分享
发布于 2024-05-24 13:53 北京

相关推荐

05-21 18:32
已编辑
湖南工学院 Java
这条干货多数是给i人朋友们分享的,知道你们开不了口,可以试试我说的这些方法1.调整心态:接受初期的尴尬刚开始进入一个新环境,双方都属于一个认识对方的过程,尴尬瞬间是难免存在的。首先,你要接受尴尬,允许自己犯错,实习期本身就是来学习的,同事也不会期待你完美无缺。另外,不要太以自我为中心,其实你的尴尬瞬间也许没有人在意,是因你的对自己的关注而放大了不安全感。2.准备一些防止尴尬的话题和工作相关的,可以以请教的方式开启。比如:xx,这个表格我没有看懂,可以给我讲一下吗非工作的话题,可以聊聊中午吃什么、当地的天气如何、通勤远不远之类的。比如:附近有什么好吃的外卖吗?我刚来还不太熟悉3.每日练习,逐渐打...
sweep^0416:内向人,遇到好的领导很重要,我之前一段实习组里全e人就我一个i 刚入职第一周还会带着我聊一下,后面越来越冷落我,实在受不了,每天去到就想亖,mentor还要pua说是我融入不了集体(我真的以为是我的问题)后面我离职了,去了现在这一家公司,我的领导也是e人,但是我融入的很好,组里的人全都很好很好,也不会出现小团体什么的,所以说内向不是不融入环境的根本,就是公司跟带教的问题
点赞 评论 收藏
分享
评论
8
34
分享

创作者周榜

更多
牛客网
牛客企业服务