首页> 算法/机器学习校招面试题目合集> 特征工程的问题

问答题 108 /376

特征工程的问题

参考答案

参考回答:

特征工程包括数据与特征处理、特征选择和降纬三部分。数据与特征处理包括：

1.数据选择、清洗、采样

数据格式化；

数据清洗，填充缺失值、去掉脏数据，将不可信的样本丢掉，缺省值极多的字段考虑不用；

采样：针对正负样本不平衡的情况，当正样本远大于负样本时，且量都很大时，使用下采样，量不大时，可采集更多的数据或oversampling或修改损失函数；采样过程中可利用分层抽样保持不同类别数据的比例。

2.不同类型数据的特征处理

数值型：幅度调整/归一化、log等变化、统计值（例如max、min、mean、std）、离散化、分桶等

类别型：one-hot编码等

时间型：提取出连续值的持续时间和间隔时间；提取出离散值的“年”、“月”、“日”、“一年中哪个星期/季度”、“一周中的星期几”、“工作日/周末”等信息

文本型：使用If-idf特征

统计型：加减平均、分位线、次序、比例

意义：

对数据进行预处理，可提高数据质量，提高挖掘质量。对数据进行清洗可填充缺失值、光滑噪声数据，识别和删除离群点数据，保证数据的一致性；

使用正确的采样方法可解决因数据不平衡带来的预测偏差；

对不同的数据类型进行不同的特征处理有助于提高特征的可用性，例如对数值型数据进行归一化可将数据转化到统一量纲下；对类别型数据，可用one-hot编码方法将类别数据数字化，数字化特征之后可更用来计算距离、相似性等；可从时间型数据当中提取中更多的时间特征，例如年、月和日等，这些特征对于业务场景以及模型的预测往往有很大的帮助。统计型特征处理有助于从业务场景中挖掘更丰富的信息。

特征选择包括：

1.Filter：使用方差、Pearson相关系数、互信息等方法过滤特征，评估单个特征和结果值之间的相关程度，留下Top相关的特征部分。

2.Wrapper：可利用“递归特征删除算法”，把特征选择看做一个特征子集搜索问题，筛选各种特征子集，用模型评估效果。

3.Embedded：可利用正则化方式选择特征，使用带惩罚项的基模型，除了选择出特征外，同时也进行了降纬。

意义：

-剔除对结果预测不大的特征，减小冗余，选择有意义的特征输入模型，提高计算性能。

降维：

方法：主成分分析法（PCA）和线性判别分析（LDA）

意义：通过PCA或LDA方法，将较高纬度样本空间映射到较低维度的样本空间，从而达到降纬的目的，减少模型的训练时间，提高模型的计算性能。

纠错收藏

查看讨论

1
...
103
104
105
106
107
108
109
110
111
112
113
...
376
跳转到

上一题下一题