【16】机器学习算法面试八股

291逻辑回归特征是否归一化

逻辑回归本身不受量纲影响,但是其使用梯度下降法求解参数受量纲影响大,如果不进行特征归一化,可能由于变量不同量纲导致参数迭代求解缓慢,影响算法速率。于决策树这类的算法,不受量纲影响,不需要进行归一化处理。

292什么样的模型需要特征归一化

1、一般算法如果本身受量纲影响较大,或者相关优化函数受量纲影响大,则需要进行特征归一化。逻辑回归本身不受量纲影响,但是其使用梯度下降法求解参数受量纲影响大,如果不进行特征归一化,可能由于变量不同量纲导致参数迭代求解缓慢,影响算法速率。树模型特征归一化可能会降低模型的准确率,但是能够使模型更加平稳ID3和C4.5只能解决分类问题,CART是既可以解决分类问题,也可以解决回归问题

293树模型为什么是不能进行梯度下降

树模型是不能进行梯度下降的,因为构建树模型(回归树)寻找最优点时是通过寻找最优分裂点完成的,因此树模型是阶跃的,阶跃点是不可导的,并且求导没意义,也就不需要归一化。所以树模型(回归树)寻找最优点是通过寻找最优分裂点完成的而像adaboost、svm、lr、KNN、KMeans之类的最优化问题就需要归一化。

294对于树形结构为什么不需要归一化?

因为数值缩放不影响分裂点位置,对树模型的结构不造成影响。按照特征值进行排序的,排序的顺序不变,那么所属的分支以及分裂点就不会有不同概率模型不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、rf。

295同样是树结构,为什么随机森林不需要对数据进行归一化,GBDT需要对数据进行归一化呢

GBDT的树是在上一颗树的基础上通过梯度下降求解最优解,归一化能收敛的更快,GBDT通过减少bias来提高性能,而随机森林本来就是通过减少方差提高性能的,树之间建立关系是独立的,不需要归一化

296如何提升LR的模型性能?如何优化LR模型

• 想办法获得或构造更多的数据,无论评估模型还是训练,都会更加可靠。• 根据业务知识,挖掘更多有价值的Feature,即特征工程。• 加入正则化项,L1/L2。交叉验证确定最优的参数。这会加快模型开发速度,会自动化筛选变量

297逻辑回归为啥要做特征离散化

  1. 非线性:逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合; 离散特征的增加和减少都很容易,易于模型的快速迭代;
  2. 速度快:稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
  3. 鲁棒性:离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是“年龄>30是1,否则0”。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
  4. 方便交叉与特征组合:离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
  5. 简化模型:特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

298最小二乘法在什么条件下与极大似然估计等价?

当模型估计值和真实值间的残差项服从均值是0的高斯分布时,就有最小二乘估计和最大似然估计等价。

299逻辑回归为什么不用平方损失函数?

  1. 因为平方损失函数权重更新过慢,采用交叉熵损失函数可以完美解决过慢的问题,它具有“误差大的时候,权重更新快;误差小的时候,权重更新慢”的良好性质。
  2. sigmoid作为激活函数的时候,如果采用均方误差损失函数,那么这是一个非凸优化问题,不宜求解,容易陷入局部最优解。而采用交叉熵损失函数依然是一个凸优化问题,更容易优化求解。

300LR可以处理非线性情况吗?

可以,同样可以使用核方法。

301LR的参数可以初始化0 吗?可以,但是神经网络初始化参数不可以为0

可以

302SVM的优缺点

优点:

  1. 理论完善,逻辑优美。
  2. SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。
  3. SVM 对异常值不敏感
  4. 少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本
  5. SVM 目标是求解最大间隔超平面,算法分类具有较好的“鲁棒”性。
  6. SVM可以利用核函数解决逻辑回归解决不了的高维分类问题。 缺点:
  7. SVM算法对大规模训练样本难以实施 由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。
  8. 用SVM解决多分类问题存在困难 经典的支持向量机算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决多类的分类问题。可以通过多个二类支持向量机的组合来解决。主要有一对多组合模式、一对一组合模式和SVM决策树;再就是通过构造多个分类器的组合来解决。 主要原理是克服SVM固有的缺点,结合其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。

303LR 和 SVM 联系与区别

LR与SVM的相同点:

  1. 都是有监督的分类算法;
  2. 如果不考虑核函数,LR和SVM都是线性分类算法。 它们的分类决策面都是线性的。
  3. LR和SVM都是判别式模型。 LR与SVM的不同点:
  4. 本质上是loss函数不同,或者说分类的原理不同。
  5. SVM是结构风险最小化,LR则是经验风险最小化。
  6. SVM只考虑分界面附近的少数点,而LR则考虑所有点。
  7. 在解决非线性问题时,SVM可采用核函数的机制,而LR通常不采用核函数的方法。
  8. SVM计算复杂,但效果比LR好,适合小数据集;LR计算简单,适合大数据集,可以在线训练。

304经验风险、结构风险

经验风险:器学习模型关于训练数据集的平均损失称为经验风险。度量平均意义下模型预测效果的好坏

结构风险是在经验风险的基础上加上表示模型复杂度的正则项(罚项)。

305判别式、生成式

判别式模型 (Discriminative Model):直接对条件概率p(y|x)进行建模,常见判别模型有:线性回归、决策树、支持向量机SVM、k近邻、神经网络等;生成式模型 (Generative Model):对联合分布概率p(x,y)进行建模,常见生成式模型有:隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等;

  1. 生成式模型更普适;判别式模型更直接,目标性更强
  2. 生成式模型关注数据是如何产生的,寻找的是数据分布模型;判别式模型关注的数据的差异性,寻找的是分类面
  3. 由生成式模型可以产生判别式模型,但是由判别式模式没法形成生成式模型

306svm介绍一下,svm原理

SVM是使用广泛的分类算法,可以处理非线性和高维的机器学习问题。SVM目标是找到分类的最大间隔,为了更好的求解,针对SVM基本型使用拉格朗日方法找到其对偶问题,从而找到解。SVM只和支持向量有关,所以SVM对异常值不敏感,适合小数据集。对于不易分类的情况,可以采用软间隔。高维问题甚至可以采用核函数方法来更好的分类。

307如果特征比较多,用LR还是SVM?

如果特征比较多,最好采用SVM。因为从SVM基本型可以看出来,只和样本数量有关,和特征无关,不易过拟合;而特征过多时,LR容易过拟合。

308SVM是否可以用随机梯度下降

可以SVM本质上是一个带约束的二次规划问题,但是通过拉格朗日法或Hinge Loss的方式可以转换成一个无约束的优化问题。而不论是梯度下降还是二次规划,都是能够用来优化这个问题的。甚至Hinge Loss定义下的损失函数是个凸函数,是可以优化得到最优解的。

309为什么要将求解 SVM 的原始问题转换为其对偶问题

一是对偶问题往往更易求解,当我们寻找约束存在时的最优点的时候,约束的存在虽然减小了需要搜寻的范围,但是却使问题变得更加复杂。为了使问题变得易于处理,我们的方法是把目标函数和约束全部融入一个新的函数,即拉格朗日函数,再通过这个函数来寻找最优点。

二是可以自然引入核函数,进而推广到非线性分类问题。

310为什么SVM对缺失特征数据敏感

这里说的缺失数据是指缺失某些特征数据,向量数据不完整。SVM 没有处理缺失值的策略。而 SVM 希望样本在特征空间中线性可分,所以特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。

更多校园招聘常见面试问题(开发、算法、编程题目)参见CSDN博客:http://t.csdn.cn/V4qbH

欢迎关注、收藏、点赞后进行问题咨询及秋招建议

#牛客解忧铺##牛客在线求职答疑中心##数据人的面试交流地##我发现了面试通关密码##如何判断面试是否凉了#
机器学习算法面经 文章被收录于专栏

介绍秋招面试过程中对机器学习算法、数据挖掘、python语言、C++语言、数据结构的面试题目和基础总结

全部评论
你好呀!看到你对机器学习算法的问题很感兴趣呢!特别是关于逻辑回归和SVM的特征归一化问题。你对这个问题的理解已经很深入了,逻辑回归的特征归一化可以提高算法的速率,而树模型则不需要进行归一化处理。这些都是非常重要的知识点。 不过,我还想问问你,你对机器学习算法有什么具体的应用场景感兴趣呢?或者你还有其他关于机器学习算法的问题吗?如果有的话,可以继续和我聊哦~点击我的头像可以私信我哦~😊
点赞 回复 分享
发布于 2023-07-17 15:00 AI生成

相关推荐

缒梦&独舞:这家公司是这样的,去年给我实习offer了,不过也是面着玩儿的,他周六还要去做公益志愿活动
点赞 评论 收藏
分享
牛大宝儿236:还没入职就PUA,[发火我之前遇到一个月给500块钱的
点赞 评论 收藏
分享
评论
1
43
分享

创作者周榜

更多
牛客网
牛客企业服务