众安保险-数分一面

时间:2025/4/17 下午2:45; 面试时长大概20min,没有问SQL相关问题

  1. 首先是自我介绍,介绍自己的项目
  2. Python中最常用的三个库是什么,及功能
  3. 如何进行数据预处理,重复值,缺失值,异常值怎么处理?数据格式的准换,如文本怎么处理?
  4. 有没有拿到其他厂的offer
  5. 为什么不选择做本行业,船舶

数据预处理的第一步操作是数据清洗,保留有用的信息,清除没用的信息;

数据清洗包括重复值删除,缺失值填充,异常值处理;

对于重复值,直接删除,有助于提升数据的质量和分析效率;

对于缺失值,(NULL, NAN)造成原因是收集过程中的遗漏,系统故障,人为输入错误;

处理:1、对于数据量很大,但是异常值是少数的情况下,可以直接删除缺失值所在的行列;

2、使用特殊值来代替;前面或者后面的数据;

3、使用平均数,中位数,众数来代替;

4、利用已知属性的值进行模型预测,预测方法包括回归算法、决策树、k-means算法;

对于异常值,使用z-score方法监测异常值,z-score = (得分-平均分)/标准差,该值大于某个数字就是异常值;

处理:直接删除或者当做缺失值填充;

数据转换:(原因是机器学习通常要输入数值型数据,而现实世界的数据可能包含文本、类别、时间等非数值类型;首要目的就是要把非数值型数据转换为数值型表示;)

将文本数据转换为词频向量或者词嵌入向量;

将类别数据转换为one-hot编码或者label encoding;

将时间数据转换为年、月、日、时、分等数值特征;

特征编码

1、特征二元化:将数值型的属性转换为布尔值的属性,设定一个阈值作为划分属性值为0和1的分隔点;

2、独热编码:采用N位状态寄存器来对N个可能的取值进行编码,每个状态都由独立的寄存器来表示,并且在任意时刻只有其中一位有效。独热编码的优点:能处理非数值属性;在一定程度上扩充了特征;编码后的属性是稀疏的;存在大量的零元分量。

数值转换:数据的标准化、归一化(目的:需要消除样本不同属性具有不同量级时的影响)

minmax标准化:新数据=(原数据-min)/(max-min)

z-score标准化:新数据=(原数据-平均值)/标准差

数据压缩的目的:减少数据量大小,提高模型训练与推理速度,提高模型泛化性能(去除冗余和噪声,使模型能更好地提取模型的本质特征,提高模型的泛化能力,降低过拟合风险);

常见的数据压缩方法:

主成分分析(PCA)是无监督的线性降维方法,旨在找到数据中最大方差的正交投影方向。

线性判别分析(LDA)是一种有监督的线性降维方法,旨在找到能最大化类间差异,最小化类间差异的方向。

#众安保险##数据人的面试交流地#
全部评论
你我牛美孩
1 回复 分享
发布于 04-22 18:26 上海

相关推荐

评论
2
8
分享

创作者周榜

更多
牛客网
牛客企业服务