首页 > 试题广场 >

你是怎么处理数据中经常存在的数据不平衡的问题。

[问答题]

你是怎么处理数据中经常存在的数据不平衡的问题。

针对不平衡数据集的问题,可以采用以下几种方法:
从数据的角度:
  1. 重采样, 又分为欠采样和过采样
  2. K-fold交叉验证
  3. 对于正负样本极不均匀的问题,采用异常检测或者一分类问题
  4. 组合不同的重采样数据集。建立n个模型,每个模型使用稀有类别的所有样本和丰富类别的n个不同样本(比例为1:1)
  5. 用不同的比例重新采样
  6. 对丰富类别进行聚类处理,并使用类中心作为样本与稀有类样本组合成数据集训练
从模型的角度:
1. 设计针对不平衡数据集的模型,如果设计的模型本身就适用于不平衡数据,则不需要重新采样数据,XGBoost,就是其中的典型代表。
2. 通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别,可以设计出许多自然汉化为稀有类别的模型。例如:调整SVM以惩罚稀有类别的错误分类。

编辑于 2019-07-04 12:25:36 回复(0)