【17】机器学习算法面试八股
311SVM怎么防止过拟合
- 引入松弛变量
- 正则化
312KNN的优缺点
优点:
- 简单易用,相比其他算法,KNN算是比较简洁明了的算法。
- 模型训练快
- 预测效果好。
- 对异常值不敏感 缺点:
- 对内存要求较高,因为该算法存储了所有训练数据
- 预测阶段可能很慢
- 对不相关的功能和数据规模敏感
- 对数据纲量敏感,所以数据要先归一化
313KNN介绍一下
KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。通过方差表示“距离”
314KNN的K值怎么选
通过不断验证K不同的取值来确定。
315KNN数据需要归一化吗
KNN对数据纲量敏感,所以数据要先归一化。因为KNN使用的方差来反映“距离”,纲量对方差计算影响较大。
316KNN三要素说一下
- k值的选取
- 距离度量的方式。 一般为欧式距离
- 分类决策规则。 分类一般为多数表决,就是哪类多选哪类。回归为选择平均法,即k个样本输出的平均值作为预测输出。
317欧式距离与曼哈顿距离区别
欧式距离:平方差求和再开方曼哈顿距离:坐标差的绝对值求和一般用欧式距离而非曼哈顿距离的原因:欧式距离可适用于不同空间,表示不同空间点之间的距离;曼哈顿距离则只计算水平或垂直距离,有维度的限制
318knn的k设置的过大会有什么问题
如果选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少学习的估计误差,但缺点是学习的近似误差会增大。(欠拟合)我们考虑一种极端的情况,当k和整个样本数量一样的,KNN的分类结果总是取决于样本类别数量最多的那一类。这时模型的误差最大化
319估计误差和近似误差
近似误差:可以理解为对现有训练集的训练误差。 近似误差小了会出现过拟合的现象,大了就是欠拟合。估计误差:可以理解为对测试集的测试误差。估计误差小了说明对未知数据的预测能力好。
320朴素贝叶斯的优缺点
朴素贝叶斯常用于分类,属于生成式模型,由联合分布概率得出分类结果。优点:
- 算法逻辑简单,易于实现
- 分类过程中时空开销小,分类准确度高,速度快。
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率。
- 对缺失数据不太敏感,算法也比较简单,常用于文本分类。
- 对小规模的数据表现很好,能处理多分类任务,适合增量式训练 缺点:
- 理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
- 需要知道先验概率,且先验概率很多时候是基于假设或者已有的训练数据所得的,这在某些时候可能会因为假设先验概率的原因出现分类决策上的错误。
321朴素贝叶斯介绍一下
朴素贝叶斯是一个基于特征条件独立假设和贝叶斯原理的一种分类算法。朴素贝叶斯通过训练数据得到X与y的联合分布;之后对于要预测的X,根据贝叶斯公式,输出后验概率最大的y。朴素贝叶斯是一种生成式学习算法,其生成方法通过学习X,Y的联合分布来实现的。假设各个特征在给定y的情况下是相互独立的。
322朴素贝叶斯中的“朴素”怎么理解
朴素贝叶斯中的朴素可以理解为是“简单、天真”的意思,因为“朴素”是假设了特征之间是同等重要、相互独立、互不影响的,但是在我们的现实社会中,属性之间并不是都是互相独立的,有些属性也会存在性,所以说朴素贝叶斯是一种很“朴素”的算法。
323什么是拉普拉斯平滑法?
拉普拉斯平滑法是朴素贝叶斯中处理零概率问题的一种修正方式。在进行分类的时候,可能会出现某个属性在训练集中没有与某个类同时出现过的情况,如果直接基于朴素贝叶斯分类器的表达式进行计算的话就会出现零概率现象。为了避免其他属性所携带的信息被训练集中未出现过的属性值“抹去”,所以才使用拉普拉斯估计器进行修正。具体的方法是:在分子上加1,对于先验概率,在分母上加上训练集中可能的类别数;对于条件概率,则在分母上加上第i个属性可能的取值数
324朴素贝叶斯中有没有超参数可以调?
朴素贝叶斯是没有超参数可以调的,所以它不需要调参,朴素贝叶斯是根据训练集进行分类,分类出来的结果基本上就是确定了的,拉普拉斯估计器不是朴素贝叶斯中的参数,不能通过拉普拉斯估计器来对朴素贝叶斯调参。
325你知道朴素贝叶斯有哪些应用吗?
朴素贝叶斯的应用最广的应该就是在文档分类、垃圾文本过滤(如垃圾邮件、垃圾信息等)、情感分析(微博、论坛上的积极、消极等情绪判别)这些方面,除此之外还有多分类实时预测、推荐系统(贝叶斯与协同过滤组合使用)、拼写矫正(当你输入一个错误单词时,可以通过文档库中出现的概率对你的输入进行矫正)等。
326朴素贝叶斯对异常值敏不敏感?
朴素贝叶斯对异常值不敏感。所以在进行数据处理时,我们可以不去除异常值,因为保留异常值可以保持朴素贝叶斯算法的整体精度,而去除异常值则可能在进行预测的过程中由于失去部分异常值导致模型的泛化能力下降。
327频率学派与贝叶斯学派的差别
频率学派 - Frequentist - Maximum Likelihood Estimation (MLE,最大似然估计)贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP,最大后验估计)频率学派和贝叶斯学派对世界的认知有本质不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范围;而贝叶斯学派认为世界是不确定的,人们对世界先有一个预判,而后通过观测数据对这个预判做调整,我们的目标是要找到最优的描述这个世界的概率分布。
328先验概率与后验概率
先验概率:就是常识、经验所透露出的“因”的概率,即瓜熟的概率。后验概率:就是在知道“果”之后,去推测“因”的概率,也就是说,如果已经知道瓜蒂脱落,那么瓜熟的概率是多少。
329决策树介绍一下
决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。决策数有两大优点:
- 决策树模型可 读性好,具有描述性,有助于人工分析;
- 效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 决策树涉及到节点(特征)的划分标准,有三种:最大信息增益、最大信息增益率、基尼系数。而这三种不同的划分标准就对应了三种典型决策树:ID3(最大信息增益)、C4.5(最大信息增益率)、CART(基尼系数)。
330决策树的优缺点
优点:
- 决策树易于理解和实现.
- 对于决策树,数据的准备往往是简单或者是不必要的 . 其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。
- 能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。
- 在相对短的时间内能够对大型数据源做出可行且效果良好的结果。
- 对缺失值不敏感
- 可以处理不相关特征数据
- 效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。 缺点:
- 对连续性的字段比较难预测。
- 对有时间顺序的数据,需要很多预处理的工作。
- 当类别太多时,错误可能就会增加的比较快。
- 在处理特征关联性比较强的数据时表现得不是太好
更多校园招聘常见面试问题(开发、算法、编程题目)参见CSDN博客:http://t.csdn.cn/V4qbH
欢迎关注、收藏、点赞后进行问题咨询及秋招建议
#在找工作求抱抱##我的求职思考##23届找工作求助阵地##实习,投递多份简历没人回复怎么办##我的实习求职记录#介绍秋招面试过程中对机器学习算法、数据挖掘、python语言、C++语言、数据结构的面试题目和基础总结
腾讯成长空间 1797人发布