2023-11-19 14:44 腾讯_微信_算法

关注

《机器学习高频面试题详解》4.5：模型融合：迭代法（二）

点击上方卡片链接就可以进入专栏，专栏右上角有订阅选项，欢迎大家订阅～

前言

大家好，我是鬼仔，今天带来《机器学习高频面试题详解》专栏的第四章中模型融合第三部分的内容：迭代法，基于迭代的经典方法有三种：boosting、stacking和blending，前面已经讲解了boosting算法，今天讲后面两种算法。这是鬼仔第一次开设专栏，每篇文章鬼仔都会用心认真编写，希望能将每个知识点讲透、讲深，帮助同学们系统性地学习和掌握机器学习中的基础知识，希望大家能多多支持鬼仔的专栏～

目前这篇是试读，后续的文章需要订阅才能查看哦，专栏预计更新30+篇文章（只增不减），具体内容可以看专栏介绍，大家的支持是鬼仔更新的动力！

本文大纲
一、原理	1. Stacking算法
	2. Blending算法
二、面试真题	1. 请列举 Stacking 方法的主要优点和缺点，并解释在实际应用中如何克服其中的一些局限性？
	2. 在构建 Stacking 模型时，一般会选择简单的元学习器（如线性回归 LR 或随机森林 RF），为什么？
	3. 请比较 Blending 算法与 Stacking 算法的异同，并解释各自在不同应用场景中的优劣？
	4. Stacking 算法在训练基模型的时候为什么需要交叉验证？
	5. 在实际应用中，如何防止Stacking算法过拟合？

一、原理

1. Stacking算法

Stacking算法首先训练多个基模型，然后使用这些模型的预测结果作为输入，训练一个新的模型（称为元模型或次级模型）。这个新模型用于组合基模型的预测结果，从而提高整体的预测性能。

Stacking算法可以在多个层次上进行，即可以使用多个元模型来组合基本模型的预测结果。单层Stacking和双层Stacking的示意图如下：

为了防止过拟合，Stacking算法都会利用K折交叉验证来训练基模型，以某比赛的方案为例：

2. Blending算法

Stacking方法中基学习器和元学习器都是使用相同的训练集进行训练（虽然输入特征X可能不同，但标签y是相同的），这可能导致信息泄露和过拟合问题。为了解决这个问题，Blending算法将训练数据集划分为两部分，使基学习器和元学习器使用不同的数据进行训练。

具体来说，Blending算法首先将训练数据集划分为两部分：训练集（例如，占90%）和留出集（例如，占10%）。训练集用于训练基学习器，而留出集用于训练元学习器。基学习器在训练集上进行训练后，会在留出集上进行预测。这些预测结果作为输入特征，与留出集的真实标签一起用于训练元学习器。

Blending的示意图如下所示：

二、面试真题

1. 请列举 Stacking 方法的主要优点和缺点，并解释在实际应用中如何克服其中的一些局限性？

1）优点：

高准确性：Stacking 方法通过组合多个基学习器，利用元学习器对它们的预测结果进行融合，从而提高整体模型的准确性。
利用多样性：Stacking 能够充分利用多个基学习器的多样性，可以同时使用不同类型的模型，提高泛化能力。
鲁棒性：由于 Stacking 方法综合了多个基学习器的优势，使得模型具有较强的鲁棒性，不容易受到单个基学习器性能波动的影响。

2）缺点：

训练复杂度：Stacking 方法涉及多层训练过程，需要训练基学习器和元学习器，计算复杂度较高。
过拟合风险：由于 Stacking 方法涉及多个模型的融合，如果基学习器或元学习器过于复杂，可能导致过拟合。
可解释性差：Stacking 方法结构较复杂，涉及多个模型的组合，使得模型的可解释性相对较差。

在实际应用中，可以采取以下策略克服 Stacking 方法的局限性：

降低训练复杂度：使用并行计算、GPU 加速等技术提高训练速度；或者选择不同类型的基学习器和元学习器，以平衡模型性能和计算成本。
避免过拟合：选择简单的基学习器（如浅层决策树）和元学习器（如线性

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

机器学习高频面试题详解文章被收录于专栏

专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer，该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经，力争深入浅出地讲解重要知识点，适合人群为准备校招或者实习，且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。

全部评论

推荐最新楼层

希望被捞的小飞象很勇敢

05-25 10:10

收到饿了么BD岗offer

疫情期间被公司裁员。投了好多简历都石沉大海，简直要怀疑人生了，某天接到饿了么的电话说是看到我的简历，邀我面试。面试很简单，顺利通过后，等待人事确定级别和薪资。大约一周后，在劳动节前收到答复，我的级别是P4-3，薪资由底薪、绩效和13薪组成。因为急于找工作，我没有多加考虑就接受了这个offer。然而，我后来发现级别定得太低，工作压力很大，几乎没有个人时间。虽然入职后，公司会帮助办理社保公积金和居住证积分，但是没有个人时间这点确实不太能接受

投递饿了么等公司10个岗位 >

点赞评论收藏

转发

昨天 22:46

门头沟学院临床医学类

终于在五月的最后一天结束了暑期实习

寻找暑期实习的历程就在今天结束吧，花了差不多三个月的时间，在这里记录一下吧。一二月开始间歇性地刷题，三月正式开始准备，中旬开始投递。主要投递Java和后端岗位，零散地投了几个客户端和测开岗，以下是一些流程情况：笔试======EA（挂）、饿了么（挂）、Paypal（挂）、淘天（挂）、携程（挂）、小红书（后端挂、测开过）、钉钉（挂）、灵犀互娱（挂）、野村（过）、微众银行（过）、米哈游（挂）、阿里国际（过）、阿里大文娱（挂）、拼多多（挂）、腾讯音乐（过）、Bilibili（挂）、七牛云（挂）、SHEIN（挂）一面======1.22 Google（挂）3.22 启元世界：Java（过）4.1 美团...

投递微众银行等公司10个岗位 >

点赞评论收藏

转发

拒绝无效加班的傻狍子很乐观

04-18 16:36

华南理工大学计算机类

哥们投了一个月一个面都没有😭

是不是简历有问题啊，985也这样真是自己太菜了吗😭

点赞评论收藏

转发

被升职的小饼干很高大

05-25 17:07

已编辑

山东师范大学计算机类

在北京每个月花2k租房是一种什么体验？

大家好，我是小布丁。 时间过的真快，我已经北漂一年了，搬家两次，找房三次，多少有点小经验，写篇文章来记录，希望能帮到小伙伴们～ 先给大家介绍一下我的租房经历： 北京的第一个房子： 在永旺家园租到了北京的第一个房子，是一个二十平左右的小次卧，房子很新，也特别干净，一个月2k，离地铁站特别近，交通方便，小区里就有接饮用水的地方，不用每个月都买矿泉水。唯一的缺点就是只租三个月，后来房东嫌麻烦直接整租了，没办法，找新房子吧，搬家！ 北京的第二个房子： 第二个房子租在了龙腾苑，这边的房子比较旧，都是一些老小区，一个月也是2k，没有电梯，我租在五楼搬家真的要半条命，平时上上下下也挺累的。...

租房前辈的忠告毕业租房也有小确幸

点赞评论收藏

转发

2 收藏评论

招聘动态

博士生招聘专场开启啦

全站热榜

正在热议

# 和牛牛一起刷题打卡 #

9059次浏览 808人参与

# 机械制造薪资爆料 #

347359次浏览 4095人参与

# 牛客帮帮团来啦！有问必答 #

1049513次浏览 15941人参与

# 通信硬件薪资爆料 #

249626次浏览 2354人参与

# 你收到了团子的OC了吗 #

524206次浏览 6227人参与

# 春招你拿到offer了吗 #

397171次浏览 5738人参与

# 你怎么评价今年的春招？ #

8778次浏览 157人参与

# 本周投递记录 #

217517次浏览 5333人参与

# 晒一晒我的offer #

3717348次浏览 57474人参与

# 担心入职之后被发现很菜怎么办 #

36810次浏览 311人参与

# 腾讯工作体验 #

150864次浏览 1474人参与

# 设计人如何选offer #

14479次浏览 281人参与

# 来选选带哪个offer回家过年 #

191225次浏览 1834人参与

# 百度工作体验 #

28464次浏览 286人参与

# 实习生应该准时下班吗 #

87617次浏览 645人参与

# 我想象的工作vs实际工作 #

103912次浏览 1675人参与

# 字节跳动工作体验 #

73126次浏览 2011人参与

# 我发现了面试通关密码 #

376628次浏览 6966人参与

# 如何写一份好简历 #

308494次浏览 4403人参与

# 数据人的面试交流地 #

204936次浏览 4258人参与

牛客网
牛客企业服务