机器学习面经-评估方法与评价指标

University of Saskatchewan 算法工程师

关注

  一、简介  在机器学习中，评价方法和评价指标用于衡量模型在给定数据上的性能和预测能力。不同的任务和问题可能会选择不同的评价方法和评价指标。如准确率、召回率、均方误差、AUC等。  二、面经  1、请问模型常用的评估方法有哪些？  2、请问常用的评价指标有哪些？  3、你知道准确率（Accuracy）、精确率（Precision）、召回率（Recall）是怎么算的吗？  4、讲讲F1-score是怎么算的？  5、针对上面提到的一些指标，当训练集中类别不均衡，哪个最不准确？  6、ROC、AUC、PR曲线是什么关系？  7、AUC为什么比其他指标好？  8、AUC高是否一定说明auc高的模型排序能力更强？AUC对均匀正负样本采样不敏感？  9、AUC 值本身的理论上限是1吗？  10、AUC 与线上业务指标的宏观关系？  11、ROC曲线和PR曲线的区别？各自的适用场景？  三、面经参考回答  1、请问模型常用的评估方法有哪些？  参考回答：常用的评估方法包括以下几种：     训练集和测试集划分：将数据集划分为训练集和测试集，通常按照一定比例（如70%训练集，30%测试集）划分数据。训练集用于训练模型，测试集用于评估模型的性能和泛化能力。   交叉验证：K折交叉验证：将数据集划分为K个子集，依次选取其中一个子集作为验证集，剩余K-1个子集作为训练集，进行K次训练和测试，最后将K次评估结果取平均值。K折交叉验证可以更充分地利用数据集，得到更稳定的性能评估结果。留一交叉验证：特殊情况下，K折交叉验证中K等于数据集大小，即每次只留一个样本作为验证集。   自助法（Bootstrap）：自助法是一种有放回的采样方法，从原始数据集中随机采样得到一个新的训练集，然后使用剩余样本作为测试集。由于自助法采样可能会产生多个相似的数据集，因此可以得到多个模型性能评估结果，通过取平均值来得到最终评估结果。   留出集法（Hold-out）：将数据集划分为训练集、验证集和测试集三部分。训练集用于模型训练，验证集用于调参和模型选择，测试集用于评估模型在未知数据上的泛化能力。   时间序列交叉验证：对于时间序列数据，为了避免训练集包含未来的信息，常用的交叉验证方法有滚动交叉验证和时间序列分割交叉验证。      2、请问常用的评价指标有哪些？  参考回答：当评估机器学习模型的性能时，常用的评价指标根据任务类型可以分为以下几类：  分类任务评价指标：     准确率（Accuracy）：分类正确的样本数占总样本数的比例。   精确度（Precision）：真阳性样本数占所有被模型预测为正样本的样本数的比例。   召回率（Recall）：真阳性样本数占所有真实正样本的样本数的比例。   F1分数（F1 Score）：精确度和召回率的调和平均，用于综合考虑模型的准确性和召回性能。   ROC曲线和AUC：ROC曲线绘制了灵敏度（召回率）和特异度之间的关系，AUC用于度量ROC曲线的性能，越接近1表示模型性能越好。    回归任务评价指标：     均方误差（Mean Squared Error，MSE）：预测值与真实值之间的平方差的均值。   平均绝对误差（Mean Absolute Error，MAE）：预测值与真实值之间的绝对值差的均值。   R2分数（R-squared）：模型预测值的方差占总方差的比例，越接近1表示模型拟合效果越好。    聚类任务评价指标：     轮廓系数（Silhouette Coefficient）：衡量聚类的紧密性和分离性，越接近1表示聚类效果越好。   互信息（Mutual Information）：衡量聚类结果与真实标签之间的信息量，越大表示聚类效果越好。    排序任务评价指标：     平均精确率（Mean Average Precision，MAP）：对多个查询的平均精确率的平均值。    多标签分类任务评价指标：     Hamming Loss：平均每个样本上错误的标签比例。   Jaccard Similarity Score：真实标签和预测标签的交集与并集之间的比例。    不同的评价指标适用于不同的任务和场景，根据具体的问题选择合适的评价指标是非常重要的。在实际应用中，通常需要综合考虑多个评价指标，并根据业务需求来选择最适合的评价指标。  3、你知道准确率（Accuracy）、精确率（Precision）、召回率（Recall）是怎么算的吗？  参考回答：先说一下含义：TP、FP、FN、TN分别为真阳性、假阳性和假阴性、真阴性。简单来说，就是：  真阳性（TP）：标签为正类，预测为正类；  假阳性（FP）：标签为负类，预测为正类；  真阴性（TN）：标签为负类，预测为负类；  假阴性（FN）：标签为正类，预测为负类；  准确率(Accuracy)：T

全部评论

推荐最新楼层

03-13 10:34

已编辑

拼多多集团-PDD_服务端研发工程师(准入职员工)

三个月后，我在秋招群里发了张截图

"兄弟们，刚面完阿里，二面面试官问我：你这实习经历……确定只实习了三个月？" 群里瞬间炸了。 "卧槽，什么情况？" "快说说，你简历上写了啥？" 我把简历截图发了过去：  拼多多集团 · 基础架构实习生  参与核心交易系统的架构设计与研发，独立负责订单服务的微服务拆分与性能优化 在高并发场景下完成容灾容错方案设计，系统可用性从99.9%提升至99.99% 参与分布式缓存技术选型与落地，支撑日均千万级请求 承担新一代消息队列预研工作,输出技术方案并在团队内分享   "这……这真的是实习生能做的？" "我在某...

点赞评论收藏

03-13 15:41

东北大学 Java

3.13 JDY 京东健康后端开发实习一面面经

换个部门面试正常多了，上次那个面试官我能记一辈子😠整体就是少量八股加项目拷打，但是面试官对我第一个项目还是一点不感兴趣，除了答八股的时候扯了点后面没怎么问，基本问的都是我拿来凑数的rag，，，10点半结束后12点约二面我的回答是ai自动总结的，懒得回忆了00:18 自我介绍02:24 项目介绍03:40 Java基础：int取值范围本章节回答了一个关于Java基础的问题。面试者准确回答了int类型（32位，含符号位）的取值范围是-2^31到2^31-1。04:24 看你的简历上写了threadlocal，讲讲怎么用的？本章节讨论了ThreadLocal的应用。面试者在短链项目中用它存储用户信...

查看21道真题和解析

点赞评论收藏

03-03 23:12

已编辑

北京邮电大学 Java

27届找暑期，简历求拷打

书海为家：我来给一点点小建议，因为毕竟还在学校不像工作几年的老鸟有丰富的项目经验，面试官在面试在校生的时候更关注咱们同学的做事逻辑和思路，所以最好在简历中描述下自己做过项目的完整过程，比如需求怎么来的，你对需求的解读，你想到的解决办法，遇到困难如何找人求助，最终项目做成了什么程度，你从中收获了哪些技能，你有什么感悟。

你的简历改到第几版了

点赞评论收藏

03-12 23:39

快手_后端开发实习生(实习员工)

腾讯暑期一面

一共一个小时，面试难度以及自己的回答算是最近的面试压力比较大的，实习问了30分钟，中间穿插八股。1.redis数据结构2.redis持久化机制3.mysql索引底层4.聚簇索引与非聚簇索引5.索引优化6.索引失效7.mysql执行一条sql8.那么多索引mysql怎么选（不会）9.tcp与udp区别10.tcp为什么可靠11.消息队列作用12.kafka怎么保证消息有序性13.mcp是什么？14.skills是什么？15.jvm内存分配与回收过程（我讲了从创建对象到判断垃圾对象到垃圾回收我全说了一遍，是这个吗？）16.fullgc触发机制17.tcp的拥塞控制流程（不会了）18.分布式事务解决方案，说了2pc，3pc，tcc。算法是反转双向链表，没有按格式输出，但是面试官没让继续写了，面完以为挂了，结果晚上秒过，看看复试什么情况吧。今天百度打电话准备发offer了，业务跟在手子的差不多，很垂，并且说不分日常暑期，只看表现，会有转正机会，但是考虑再三还是拒绝了，百度实习薪资确实有点低，title也不如之前了，但是面试的二位业务老师我很喜欢，对我的评价也不错，希望之后能有机会共事。从三月份到现在一共面了六家，面试次数总共是8场，情况如下：脉脉二面（无答复，默认挂）百度二面已oc美团一面过，下周一二面shein一面过直接HR面游族一面过直接HR面腾讯一面过等待约二面滴滴明天一面面试通过率还是蛮高的，但是大部分都是日常，感觉对我现在的加成不大，大概率不会去，不知道暑期会是什么情况呢唉，希望能有面试吧，继续加油。字节被无hc直接取消了，现在还没人捞，有没有字节HR救救我

不管什么都不想跳动了：本人美团百度快手都待过，建议肯定是直接留快手多一点产出后转正or直接冲字节腾讯暑期吧。一是快手从福利到基建都吊打另外两家。美团现在这个业务比较惨，本来毛利就很低，亏损严重，今年很可能要优化人力降低成本，去了别说日常，就算暑期后面都很可能被优化。百度其实实习生权限挺高的，可以接触到一些含金量高的项目，但是现在的风评不如之前了，薪资也不高。二是转正概率和薪资是跟产出挂钩的，你都在手子已经积累产出了，去其他家日常实习产出都是从0开始，肯定不可能有你在手子转正可能性大啊，现在日常压根没必要去，而且我有两个师弟都是在快手日常转正的，不用太担心，安心留在手子一边多做一点产出然后一边冲字节腾讯暑期，字节腾讯今年实习岗位非常多的，不如好好把握这个，加油。