算法面试高频知识点:K折交叉验证知识详解(深刻理解版)

图片说明

K折交叉验证的作用

当有多个不同的模型(结构不同、超参数不同等)可以选择时,我们通过K折交叉验证来选取对于特定数据集最好的模型。

K折交叉验证的流程

  1. 将含有N个样本的数据集,分成K份,每份含有个样本。选择其中一份作为验证集,另外K-1份作为训练集,测试集就有K种情况。
  2. 在每种情况中,用训练集训练模型,用验证集测试模型,计算模型的泛化误差。
  3. 交叉验证重复K次,平均K次的结果作为模型最终的泛化误差。
  4. K的取值一般在【2,10】之间。K折交叉验证的优势在于,同时重复运用随机产生的子样本进行训练和验证,10折交叉验证是最常用的。
  5. 训练集中样本数量要足够多,一般至少大于总样本数的50%。
  6. 训练集和验证集必须从完整的数据集中均匀采样。均匀采样的目的是希望减少训练集、验证集与原数据集之间的偏差。当样本数量足够多时,通过随机采样,便可以实现均匀采样的效果。

5折交叉验证举例

英文名叫做5-fold cross-validation,用来验证从不同的模型中选取最优的模型(最合适的模型)。将数据集分成五份,轮流将其中4份作为训练数据,1份作为验证数据,进行试验。每次试验都会得出相应的正确率。5次的结果的正确率的平均值作为对算法精度的估计。同时对不同的模型(如CNN、SVM、LR等)做上述相同的操作,得出每个模型在特定数据集上的平均能力,从中选优。

例子:

假设我们有一个特定数据集,我们想从YOLOv4、Mask R-CNN、SSD、Faster -CNN、RetinaNet这五个模型中选取在这个特定数据集中有最好效果的一个模型作为baseline,我们可以进行交叉验证来进行判断:

步骤:

  1. 将数据集分成5份。
  2. 对于每一个模型,for i = 1, 2, 3, 4,5,每个for循环里将除了第i份的所有数据作为训练集用于训练,得到参数;再将参数在第i份数据上进行验证,得到评价结果。
  3. 最后我们可以得到5个模型的结果,每个模型有5个验证结果。将每个模型的结果取平均值,得到该模型的平均结果。
  4. 5个模型中平均结果最好的模型就是我们想要的最优模型。
#秋招##实习##面经##面试八股文##面霸的自我修养#
全部评论
点赞 回复 分享
发布于 2022-08-24 20:35 江苏

相关推荐

notbeentak...:孩子,说实话,选择很重要,可能你换一个方向会好很多,但是现在时间不太够了,除非准备春招
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
3
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务