爱吃老白薯

06-06 10:40 已编辑北京体育大学体育学类

关注

如何对大模型的业务进行测试？

昨天面试遇到了这个问题，对这个有些疑问

我的回答是：

1.提供不同的提示词，查看返回结果的质量，与正确答案的差异

2.查看返回的响应速度

3.提供一些涉及隐私安全的、不适合的提示词，查看是否会被拒绝回答

面试官不是很满意，说我这些偏向于应用层面

刚刚查阅了一下：

可以数据收集、数据预处理、模型训练、模型验证、模型评估这样的普适方法

评价指标有F1（精确率和召回率的调和平均值）、RougeL（生成摘要和基准摘要的最长公共子序列）、sacreBLEU（生成文本与参考文本在不同长度的N元组的匹配情况）

有兄弟做实际的相关业务吗，这个问题应该怎么回答呢？求解

6.6号更新：

1.使用一些通用的数据集对模型效果进行评测（GLUE、superGLUE）

2.使用不同的任务进行评测，数学题，编程题，阅读理解，自然知识，科学知识，文本生成，翻译等

3.鲁棒性测试，提示词中间存在拼写错误，错别字，模糊提示等

4.不同的硬件资源对响应进行测试（类似对接口进行性能测试）

5.模拟实际用户使用场景进行提示，并收集用户反馈

#牛客解忧铺##牛客在线求职答疑中心##我的实习求职记录##帮帮团#

全部评论

推荐最新楼层

北海勇将王冲

门头沟学院计算机类

码住

送花回复分享

发布于 05-24 13:53 北京

求求给我一个offer8

北京邮电大学电子信息类

我也被问过如何进行模型评估，我答了评价指标

送花回复分享

发布于 05-24 14:50 北京

国泰君安

校招火热招聘中

官网直投

上海精神病人

蔚来_测(实习员工)

根据指标调参，反转了算法就是测试，测试就是算法

送花回复分享

发布于 05-24 16:49 上海

在努力的小马

北京邮电大学计算机类

哥，我看你面了一个春天了，咋还没找到实习。我找实习之前就看你了，找实习还看你在面，我都快实习一个月了打开牛客看你还在面！

送花回复分享

发布于 06-07 15:26 山西

海底捞不动

06-13 22:15

机械设计师

海信薪资待遇、offer选择、裁员问题、信动力计划及工作强度

一、薪资方面:生产制造:非985,211的税前本科13万，研究生税前不到20(信动力除外，分地区不同我说的是青岛总部)营销职能:本科生税前12万起，研究生税前13--16万不等(信动力除外，分地区不同我说的是青岛总部)研发:平均薪资高于生产制造和营销职能类普通校招:信子靠学历给薪，而非学校。研究生比本科生薪资高(无论什么学校的研究生)整体而言，待遇越老越妖，如果五年还没涨薪，速润;和隔壁裤衩子兄弟比，拿的比较实;当然，和北上广深相比薪资不值一提了二、offer 选择:注:以下几种情况，感觉最亏的是985,211的本科毕业生;第二亏的是双211硕如果你双非本科毕业，还想来青岛，那入职信子是不二之...

投递海信集团等公司7个岗位 >

点赞评论收藏

asaka003

06-02 10:56

已编辑

南京大学计算机类

QQ安全三面

场景题: ①如何设计一个数据结构，统计用户某个时间段的请求频率，并进行限流②用户聊天中涉及到的一些url信息，如何进行检测设计，如何优化检测过程中请求的效率大数据相关，hadoop和spark有什么区别，hdfs文件存储流程，如何优化最近实验室做的项目，怎么优化方面的问题大模型相关，有涉及到哪些大模型方面的学习？大模型的输入输出是怎么做的?其他想不起来了，之后想到再补充。无八股，无手撕。许愿hr面试。------5.31----------状态变成hr------6.2------------已约hr面试

查看5道真题和解析

点赞评论收藏

Orre

06-13 15:17

已编辑

大连理工大学计算机类

贴一下华为云的时间线，感觉快是最后一批了

4.15 投递4.24 机试4.25 评测5.30 技术面6.7 主管面主管面刚约，希望能顺利吧-------6.7更新主管面问了科研经历，然后聊天。怎么开发岗回回问大模型，我说了我是搞cv的不懂nlp还问😓-------6.8更新主管面已过，开泡-------6.13更新HR打电话问了实习时长，base地，这算是要报批了吗？base主管面给我选了深圳

点赞评论收藏

又在摸鱼的小蜗牛很有趣

05-27 22:35

已编辑

门头沟学院草学类

快手（Y-tech）测试开发实习生二面

体验：这一轮面试强度偏大，面试官开头就表明“这个岗位招硕士更多一点”，中途也有不止一次cue到学历。手撕代码的各种细节拷打了很久。————————（85min）————————（面试官先看了一面面评之后开始面试）1.询问基本情况2.你现在蔚来实习也挺好的，为什么要跳出来？3.有在面试其它家的测开岗位吗？4.了解我们这块是做什么的吗？5.你怎么看待测试这个岗位的？6.你能讲一下你在蔚来实习做了什么吗？7.（提到了持续集成）你在这里面承担什么样的角色？8.（提到对infer效果的调研）你怎么确保infer这个工具的效果一定好，有真正的应用到整个cicd流水线里头吗？9.服务层的接口自动化这块有了解吗？10.（介绍了在实习中进行接口自动化的细节）你刚刚讲到做接口自动化用了httprunner，而不是pytest。你觉得httprunner相较于pytest解决了哪些问题？11.（提到了配置和代码分离，被面试官打断）你刚才解释的这个理由并不能支撑你为什么一定要用httprunner，这任何一个框架都可以实现。12.你在实习中做质量平台的后端开发是指什么？13.为什么后端是用Python写？14.你主要是做哪些接口实现？15.视觉算法或者说大模型这种多模态算法，数字人这些有了解吗？16.你针对这种大模型或者一些数据算法的评测思路是什么？比如说一个做性别识别的分类算法，这个算法它能识别出一个图像里的人是男还是女。你怎么去评测它的效果？17.（讲了交叉验证，准确率召回率等，面试官打断）你现在讲的太通用了，要基于这样的一个具体场景去讲而不是说给我个业界的通用的这种评价指标。18.提个醒，你刚才提到准确率召回率，就先不说这个自动化指标，就说线圈识别，你怎么去设计它的测试样本，你怎么去看这个算法在不同样本的一个分类能力？（我又讲了一些，面试官表示思路对了，然后进行了一些补充）19.对于这类算法评测你觉得它核心的难点在哪？20. 手撕算法：二叉搜索树中删除节点，保持原结构不变。（从空白编辑器开始写，其实还要自己写二叉搜索树结构、建二叉搜索树和遍历）21. AC了，讲思路。22.反问：在您负责的测试工作中最大的难点是？————————后续：两天后通知二面通过，约了HR面#快手##测试开发##实习##25届暑期实习#

查看16道真题和解析 25届暑期实习

点赞评论收藏

程序员小白条

06-07 22:42

门头沟学院计算机类

松鼠 AI Java 开发实习一面

松鼠 AI Java 开发实习 一面 1）自我介绍 2）接口调用平台需求分析、业务流程介绍 3）邀请码设计 4）Map、List、Set 区别 5）中奖名单用什么结构，统计人昵称和名次以及频率 6）HashTable 和 HashMap 的区别 7）JVM 垃圾回收，对象死亡判断、垃圾回收算法、垃圾回收器 8）进程和线程的区别 9）线程池的作用 10）内存泄漏的场景和解决方案 11）OSI 七层模型 12）TCP 和 UDP 的区别 13）TCP 可靠性怎么保证的？ 14）数据库深度分页优化 15）联合索引场景和注意事项 16）算法：中序遍历 + 合并两个有序数组 反问：技术栈和业务，模块划分...

查看16道真题和解析软件开发笔面经

点赞评论收藏

3 13 评论

招聘动态

国泰君安“数字化人才专场”

2025届校园招聘

全站热榜

正在热议

# 现在还是0offer，延毕还是备考 #