如何对大模型的业务进行测试?

昨天面试遇到了这个问题,对这个有些疑问

我的回答是:

1.提供不同的提示词,查看返回结果的质量,与正确答案的差异

2.查看返回的响应速度

3.提供一些涉及隐私安全的、不适合的提示词,查看是否会被拒绝回答

面试官不是很满意,说我这些偏向于应用层面

刚刚查阅了一下:

可以数据收集、数据预处理、模型训练、模型验证、模型评估这样的普适方法

评价指标有F1(精确率和召回率的调和平均值)、RougeL(生成摘要和基准摘要的最长公共子序列)、sacreBLEU(生成文本与参考文本在不同长度的N元组的匹配情况)

有兄弟做实际的相关业务吗,这个问题应该怎么回答呢?求解

6.6号更新:

1.使用一些通用的数据集对模型效果进行评测(GLUE、superGLUE)

2.使用不同的任务进行评测,数学题,编程题,阅读理解,自然知识,科学知识,文本生成,翻译等

3.鲁棒性测试,提示词中间存在拼写错误 ,错别字,模糊提示等

4.不同的硬件资源对响应进行测试(类似对接口进行性能测试)

5.模拟实际用户使用场景进行提示,并收集用户反馈

#牛客解忧铺##牛客在线求职答疑中心##我的实习求职记录##帮帮团#
全部评论
码住
点赞
送花
回复 分享
发布于 05-24 13:53 北京
我也被问过如何进行模型评估,我答了评价指标
点赞
送花
回复 分享
发布于 05-24 14:50 北京
国泰君安
校招火热招聘中
官网直投
根据指标调参,反转了算法就是测试,测试就是算法
点赞
送花
回复 分享
发布于 05-24 16:49 上海
哥,我看你面了一个春天了,咋还没找到实习。我找实习之前就看你了,找实习还看你在面,我都快实习一个月了打开牛客看你还在面!
点赞
送花
回复 分享
发布于 06-07 15:26 山西

相关推荐

体验:这一轮面试强度偏大,面试官开头就表明“这个岗位招硕士更多一点”,中途也有不止一次cue到学历。手撕代码的各种细节拷打了很久。————————(85min)————————(面试官先看了一面面评之后开始面试)1.询问基本情况2.你现在蔚来实习也挺好的,为什么要跳出来?3.有在面试其它家的测开岗位吗?4.了解我们这块是做什么的吗?5.你怎么看待测试这个岗位的?6.你能讲一下你在蔚来实习做了什么吗?7.(提到了持续集成)你在这里面承担什么样的角色?8.(提到对infer效果的调研)你怎么确保infer这个工具的效果一定好,有真正的应用到整个cicd流水线里头吗?9.服务层的接口自动化这块有了解吗?10.(介绍了在实习中进行接口自动化的细节)你刚刚讲到做接口自动化用了httprunner,而不是pytest。你觉得httprunner相较于pytest解决了哪些问题?11.(提到了配置和代码分离,被面试官打断)你刚才解释的这个理由并不能支撑你为什么一定要用httprunner,这任何一个框架都可以实现。12.你在实习中做质量平台的后端开发是指什么?13.为什么后端是用Python写?14.你主要是做哪些接口实现?15.视觉算法或者说大模型这种多模态算法,数字人这些有了解吗?16.你针对这种大模型或者一些数据算法的评测思路是什么?比如说一个做性别识别的分类算法,这个算法它能识别出一个图像里的人是男还是女。你怎么去评测它的效果?17.(讲了交叉验证,准确率召回率等,面试官打断)你现在讲的太通用了,要基于这样的一个具体场景去讲而不是说给我个业界的通用的这种评价指标。18.提个醒,你刚才提到准确率召回率,就先不说这个自动化指标,就说线圈识别,你怎么去设计它的测试样本,你怎么去看这个算法在不同样本的一个分类能力?(我又讲了一些,面试官表示思路对了,然后进行了一些补充)19.对于这类算法评测你觉得它核心的难点在哪?20. 手撕算法:二叉搜索树中删除节点,保持原结构不变。(从空白编辑器开始写,其实还要自己写二叉搜索树结构、建二叉搜索树和遍历)21. AC了,讲思路。22.反问:在您负责的测试工作中最大的难点是?————————后续:两天后通知二面通过,约了HR面#快手##测试开发##实习##25届暑期实习#
查看16道真题和解析 25届暑期实习
点赞 评论 收藏
分享
3 13 评论
分享
牛客网
牛客企业服务