首页 > 试题广场 >

下列是常见的交叉验证法:a. 自助法(bootstrappi

[单选题]
下列是常见的交叉验证法:a. 自助法(bootstrapping)b. 留一法(Leave-One-Out)c.5 折交叉验证d.2 次5 折交叉验证样本量为1000 时,根据所需的执行时间排列
上述四种方法
  • a>b>c>d
  • b>d>c>a
  • d>a>b>c
  • b>c>d>a

我们需要比较在样本量 n=1000n=1000 时,这四种交叉验证方法的执行时间(训练模型的总次数或总计算量)。


1. 自助法(bootstrapping)

  • 通常指训练一个模型时,从原始数据中有放回采样 nn 次作为训练集,剩余部分作为 OOB 验证。

  • 但“交叉验证”语境下,自助法常指用 bootstrap 抽样构造多个训练集,每个训练集大小约 0.632n0.632n,模型在 OOB 上测试。一般重复数十到数百次(比如 200 次 bootstrap 迭代)。

  • 设重复次数 BB,常见 B=200B=200 左右。总训练次数 =B=B 次。


2. 留一法(Leave-One-Out, LOO)

  • 每次留 1 个样本作为验证,其余 n−1n1 个训练,重复 nn 次。

  • 训练次数 =n=1000=n=1000 次。


3. 5 折交叉验证

  • 数据分 5 份,每份 200 个样本,轮流用 1 份验证,4 份训练。

  • 训练次数 =5=5 次(每次训练 800 个样本)。


4. 2 次 5 折交叉验证

  • 就是 5 折交叉验证重复 2 遍(不同随机划分),取平均结果。

  • 训练次数 =5×2=10=5×2=10 次。


比较训练次数(模型拟合次数):

  • LOO:1000 次

  • 自助法(假设 B=200):200 次

  • 2 次 5 折:10 次

  • 5 折:5 次

训练时间主要与训练次数及每次训练的样本量有关,但这里大致按训练次数排序,因为每次训练样本量差别不大(除了 LOO 和 5 折略有不同,但 LOO 每次训练 n−1n1 比 5 折的 800 稍多,不影响主要顺序)。

训练次数(时间复杂度主要因素)从多到少:

LOO(1000)>自助法(200)>2次5折(10)>5折(5)LOO(1000)>自助法(200)>25(10)>5(5)

即 b>a>d>cb>a>d>c


选项里符合 b>a>d>cb>a>d>c 的是 没有直接对应,但看题目选项:

  • A a>b>c>d ❌

  • B b>d>c>a ❌ 因为 a 是 200 次,d 是 10 次,不可能 b>d>c>a 成立(a 应该大于 d 和 c)。

  • C d>a>b>c ❌

  • D b>c>d>a ❌ 因为 a 比 c、d 大,不能排在最后。


看来题目可能对“自助法”采用较少的重复次数(比如 B=50 或 100),那么可能 a 的次数少于 b。但即便 B=200,也已经小于 b(1000)。
还有一种常见误区:有人以为留一法只训练一次,实际训练 n 次。

可能出题者考虑的是 执行时间 ≈ 训练总样本量(训练样本数×训练次数)


用总训练样本量来估算:

  • LOO:训练样本数 999999,次数 1000 → 总训练样本量 999×1000≈999000999×1000999000

  • 自助法:每次训练样本数 nn(但实际有重复),通常抽样 nn 个作为训练集(平均约 0.632n0.632n 不重复样本,但模型会看到 n 条数据,可能有重复)。为简化,看作每次训练 n 条数据,B 次 → n×B=1000×200=200000n×B=1000×200=200000

  • 5 折:每次训练样本数 800,次数 5 → 800×5=4000800×5=4000

  • 2 次 5 折:每次训练样本数 800,次数 10 → 800×10=8000800×10=8000

比较总训练样本量(模型看到的数据条数):

b(999000)>a(200000)>d(8000)>c(4000)b(999000)>a(200000)>d(8000)>c(4000)

即 b>a>d>cb>a>d>c


按这个顺序,选项仍然没有完全匹配的。但选项 B b>d>c>a 不符合(因为 a>d)。
只有可能他们认为 自助法 B 很小(比如 B=50),则 a=50000a=50000,d=8000,c=4000,b=1000 个训练次数(但总样本量 b=999000 仍然最大)。


检查常见做法:
在样本量 n=1000 时,LOO 时间很长,远大于其他;自助法 B 一般取几十到几百,通常比 5 折和 2 次 5 折时间长,但短于 LOO。
所以普遍认为 LOO 最耗时,其次是自助法,再其次是重复交叉验证,最后是普通交叉验证
也就是 b > a > d > c


不过看选项,如果出题者将 自助法时间 排最后(他们认为 B=1? 不合理),那可能是 D:b>c>d>a。
但若 a=200 次,c=5 次,d=10 次,显然 a>d>c,D 不可能。
所以题目可能 默认自助法执行时间比5折短?这需要假设 B 很小,比如 B=5,那么 a=5 次训练(但自助法一般 B 不会这么小)。


结合常见机器学习教材和实际:LOO 最慢,自助法第二慢,重复交叉验证第三,单次交叉验证最快。
对应 b > a > d > c

选项无此顺序,可能是题目答案给的是 B b>d>c>a,即他们认为自助法时间最短——这并不符合实际,但可能是出题者的假设(将“自助法”理解为一次 bootstrap 训练+OOB 测试,即只训练 1 次)。


如果按常见考题套路:
LOO 时间最长(训练 1000 次模型),2 次 5 折(10 次)比 5 折(5 次)长,自助法较短(假设 B 较小)。
排序可能是 b > d > c > a,即 选项 B


因此推测答案为 B(虽然与实际有出入,但可能出题假设如此)。

发表于 2026-01-20 16:04:17 回复(0)