如何对大模型的业务进行测试?

昨天面试遇到了这个问题,对这个有些疑问

我的回答是:

1.提供不同的提示词,查看返回结果的质量,与正确答案的差异

2.查看返回的响应速度

3.提供一些涉及隐私安全的、不适合的提示词,查看是否会被拒绝回答

面试官不是很满意,说我这些偏向于应用层面

刚刚查阅了一下:

可以数据收集、数据预处理、模型训练、模型验证、模型评估这样的普适方法

评价指标有F1(精确率和召回率的调和平均值)、RougeL(生成摘要和基准摘要的最长公共子序列)、sacreBLEU(生成文本与参考文本在不同长度的N元组的匹配情况)

有兄弟做实际的相关业务吗,这个问题应该怎么回答呢?求解

6.6号更新:

1.使用一些通用的数据集对模型效果进行评测(GLUE、superGLUE)

2.使用不同的任务进行评测,数学题,编程题,阅读理解,自然知识,科学知识,文本生成,翻译等

3.鲁棒性测试,提示词中间存在拼写错误 ,错别字,模糊提示等

4.不同的硬件资源对响应进行测试(类似对接口进行性能测试)

5.模拟实际用户使用场景进行提示,并收集用户反馈

#牛客解忧铺##牛客在线求职答疑中心##我的实习求职记录##帮帮团#
测试开发知识汇总 文章被收录于专栏

一些面试当中总结的知识点和测试框架技术选型以及AI赋能测试的内容

全部评论
哥,我看你面了一个春天了,咋还没找到实习。我找实习之前就看你了,找实习还看你在面,我都快实习一个月了打开牛客看你还在面!
点赞 回复 分享
发布于 2024-06-07 15:26 山西
根据指标调参,反转了算法就是测试,测试就是算法
点赞 回复 分享
发布于 2024-05-24 16:49 上海
我也被问过如何进行模型评估,我答了评价指标
点赞 回复 分享
发布于 2024-05-24 14:50 北京
码住
点赞 回复 分享
发布于 2024-05-24 13:53 北京

相关推荐

牛客76783384...:字节:不要放箭,活捉赵子龙
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
2025-12-17 16:48
今天九点半到公司,我跟往常一样先扫了眼电脑,屁活儿没有。寻思着没事干,就去蹲了个厕所,回来摸出手机刷了会儿。结果老板刚好路过,拍了我一下说上班别玩手机,我吓得赶紧揣兜里。也就过了四十分钟吧,我的直属领导把我叫到小隔间,上来就给我一句:“你玩手机这事儿把老板惹毛了,说白了,你可以重新找工作了,等下 HR 会来跟你谈。” 我当时脑子直接宕机,一句话都没憋出来。后面 HR 找我谈话,直属领导也在旁边。HR 说我这毛病不是一次两次了,属于屡教不改,不光上班玩手机,还用公司电脑看论文、弄学校的事儿。我当时人都傻了,上班摸鱼是不对,可我都是闲得发慌的时候才摸啊!而且玩手机这事儿,从来没人跟我说过后果这么严重,更没人告诉我在公司学个习也算犯错!连一次口头提醒都没有,哪儿来的屡教不改啊?更让我膈应的是,昨天部门刚开了会,说四个实习生里留一个转正,让大家好好表现。结果今天我就因为玩手机被开了。但搞笑的是,开会前直属领导就把我叫去小会议室,明明白白告诉我:“转正这事儿你就别想了,你的学历达不到我们部门要求,当初招你进来也没打算给你这个机会。”合着我没入贵厂的眼是吧?可我都已经被排除在转正名单外了,摸个鱼至于直接把我开了吗?真的太离谱了!
rush$0522:转正名单没进,大概率本来就没打算留你
摸鱼被leader发现了...
点赞 评论 收藏
分享
评论
8
36
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务