经典分类模型

逻辑回归怎么实现多分类

一个样本只有一个标签

image

之后处理一个参数冗余的问题就完事利用概率和为1
一个样本有多标签

训练k个二分类器，第i个分类器表示某个样本是否属于第i类，测试的时候，对于每一个类别都给出属于还是不属于该类别。训练的时候需要重新处理标签，对于第i个分类器，将标签重新整理为属于第i类，和不属于第i类。

SVM中什么时候用线性核什么时候用高斯核?

线性核、多项式核、高斯核。

特征维数高选择线性核

样本数量可观、特征少选择高斯核（非线性核）

样本数量非常多选择线性核（避免造成庞大的计算量）

训练集中类别不均衡，哪个参数最不准确？

准确率。

● 为什么高斯核能够拟合无穷维度

因为将泰勒展开式代入高斯核,将会得到一个无穷维度的映射。

● LR和SVM 区别

1）LR是参数模型，SVM是非参数模型。2）从目标函数来看，区别在于逻辑回归采用的是logistical loss，SVM采用的是hinge loss.这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。3）SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。4）逻辑回归相对来说模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些，SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算。5）logic 能做的 svm能做，但可能在准确率上有问题，svm能做的logic有的做不了。

如果给你一些数据集，你会如何分类（我是分情况答的，从数据的大小，特征，是否有缺失，分情况分别答的）；

假如特征维数较多，可以选择SVM模型，如果样本数量较大可以选择LR模型，但是LR模型需要进行数据预处理；假如缺失值较多可以选择决策树。选定完模型后，相应的目标函数就确定了。还可以在考虑正负样例比比，通过上下集采样平衡正负样例比。

如果数据有问题，怎么处理；

ID3决策树优先选择信息增益大的属性来对样本进行划分,但是这样的分裂节点方法有一个很大的缺点,当一个属性可取值数目较多时,可能在这个属性对应值下的样本只有一个或者很少个,此时它的信息增益将很高,ID3会认为这个属性很适合划分,但实际情况下叫多属性的取值会使模型的泛化能力较差,所以C4.5不采用信息增益作为划分依据,而是采用信息增益率作为划分依据。但是仍不能完全解决以上问题,而是有所改善,这个时候引入了CART树,它使用gini系数作为节点的分裂依据。

● ID3,C4.5和CART三种决策树的区别

ID3	C4.5	CART
特征选择	信息增益	信息增益比	基尼指数
连续离散	离散	都可以	都可以
任务	分类	分类	分类+回归
缺失值	敏感
二叉树	多叉树	多叉树	二叉树
特征复用	不可以	不可以	可以

C4.5对于缺失值的处理

特征选择前
- 将没有特征值的数据视为特征取值为None的一类，跟其他有特征取值的样本一同计算信息增益比
特征选择后
- 将确实特征的样本划分到每一个分支，这时候需要将一个样本劈开，按照各个分支的样本数分配权重。比如缺失特征A的样本a之前权重为1，特征A有3个特征值A1,A2,A3。 3个特征值对应的无缺失A特征的样本个数为2,3,4.则a同时划分入A1，A2，A3。对应权重调节为2/9,3/9, 4/9。