如何评判大模型生成内容的准确性

#面试官最爱问的 AI 问题是......#
我之前实习的时候做过大模型问答内容的评测,面试时这个也是很吸引面试官注意,基本上只要有面试就会问,不过我当时评判是靠人工,即通过人来手动判断,面试官给了我一种思路,提前关键词来评判,但最后一些边边角角无关的内容还是得靠人手动判断
全部评论

相关推荐

发点面经攒攒人品~1.项目拷打2.实习拷打3.你提到用了CKA你能解释一下它是怎么计算的吗?这个指标真的能评估对齐程度吗4.ModalityAdapter模态适配器这个模块你是怎么设计的?它是怎么起作用的?有没有做过ablation实验?5.对比学习里你怎么构造正负样本的?正负样本不容易区分的时候你们是怎么处理的?有没有用HNM6.你们项目里用了多个loss比如MSE + Contrastive Loss + KL 散度为什么这么设计?有没有出现loss拉扯现象7医疗组手那个项目你说做了Prompt模板设计,能不能举几个例子?分类模板和生成式模板在你们场景下分别怎么做的8你们用的知识库是静态的吗?有没有做向量索引?用的什么方案9怎么避免模型产生医疗幻觉?你们有没有做 hallucination 率评估11.你用过哪些模型推理框架?你觉得Ollama和vLLM区别在哪儿?在车端你们选它们的依据是什么?12.你们说做了14B的车端模型,你们是怎么用SFT数据去做微调的?数据怎么构建的13.评测体系你是怎么搭建的?评测指标都有哪些14.你说你们构建了车载Agent平台Agent链路是怎么调度的多轮对话怎么做状态维护?15.Rewrite模型是你做的,具体输入输出是什么?你们是把 rewrite放在检索前还是后?训练数据是人工构造的吗?16你现在要设计一个多模态模型用于车内驾驶员状态识别,传感器包括摄像头和力传感器,你会怎么设计这个 pipeline
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务