首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
你是怎么处理数据中经常存在的数据不平衡的问题。
[问答题]
你是怎么处理数据中经常存在的数据不平衡的问题。
添加笔记
求解答(0)
邀请回答
收藏(26)
分享
纠错
1个回答
添加回答
3
LongXiaJun
针对不平衡数据集的问题,可以采用以下几种方法:
从数据的角度:
重采样, 又分为欠采样和过采样
K-fold交叉验证
对于正负样本极不均匀的问题,采用异常检测或者一分类问题
组合不同的重采样数据集。建立n个模型,每个模型使用稀有类别的所有样本和丰富类别的n个不同样本(比例为1:1)
用不同的比例重新采样
对丰富类别进行聚类处理,并使用类中心作为样本与稀有类样本组合成数据集训练
从模型的角度:
1. 设计针对不平衡数据集的模型,如果设计的模型本身就适用于不平衡数据,则不需要重新采样数据,XGBoost,就是其中的典型代表。
2. 通过设计一个代价函数来惩罚稀有类别的错误分类而不是分类丰富类别,可以设计出许多自然汉化为稀有类别的模型。例如:调整SVM以惩罚稀有类别的错误分类。
摘自:
https://zhuanlan.zhihu.com/p/55623547
编辑于 2019-07-04 12:25:36
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
上传者:
小小
难度:
1条回答
26收藏
855浏览
热门推荐
相关试题
下面伪代码程序: C...
Java工程师
C++工程师
安卓工程师
运维工程师
算法工程师
商汤科技
2018
嵌入式工程师
评论
(1)
来自
嵌入式工程师能力评估
在Java语言中,关于集合框架类的...
Java
评论
(1)
大模型的“集成学习”主要是指什么?
大模型概念
评论
(1)
在处理一个多类分类问题时,你选择了...
机器学习
评论
(1)
评估大型语言模型生成文本质量时,R...
大模型概念
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题