首页 > 试题广场 >

在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正

[不定项选择题]
在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下合适的处理方法是()
  • 将负样本重复10次,生成10w样本量,打乱顺序参与分类
  • 直接进行分类,可以最大限度利用数据
  • 从10w正样本中随机抽取1w参与分类
  • 将负样本每个权重设置为10,正样本权重为1,参与训练过程

解决这类问题主要分重采样、欠采样、调整权值

1. 重采样。

A可视作重采样的变形。改变数据分布消除不平衡,可能导致过拟合。

2. 欠采样。

C的方案 提高少数类的分类性能,可能丢失多数类的重要信息。

如果1:10算是均匀的话,可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。A选项可以看作此方式,因而相对比较合理。

另:如果目标是 预测的分布 跟训练的分布一致,那就加大对分布不一致的惩罚系数。

3. 权值调整。

D方案也是其中一种方式。
http://blog.csdn.net/ztf312/article/details/50893967
编辑于 2016-03-15 16:07:19 回复(3)
出题很不严谨啊,什么叫最合适,然后又是多选。。。
编辑于 2018-01-20 16:50:19 回复(2)
//机器学习分类问题中的不均衡问题(正负样本相差10倍以上)。
//周志华教授的EasyEnsemble就是解决不均衡问题的。
//感觉这题ACD都对,都是解决不均衡问题的方法。具体使用时要具体问题具体分析。

发表于 2016-03-04 22:03:33 回复(6)
正负样本不平衡,在分类时候,需要平衡正负样本
A过抽样:通过多次复制小样本,改变数据分布消除不平衡,可能导致过拟合
C欠抽样:通过随机抽样减少多样本规模,提高少数类的分类性能,可能丢失多数类的重要信息
D权值方法 好像也可以啊。。。
发表于 2015-12-10 14:48:17 回复(0)
把题目中的''最''字去掉再选acd更合理些
发表于 2019-02-23 16:56:48 回复(0)
这题说法不严谨,应该把“最”去掉,或者直接告诉我们合理的解决方法有哪些,否则会引起误解。 现在都是双向选择,公司选我们,我们也会选公司。看一个公司咋样,其实,也可以从他们出题的说法看出来。
发表于 2020-03-28 23:22:10 回复(0)
欠采样:若随机丢失反例,可能丢失一些重要信息。代表性算法EasyEnsemble是利用集成学习机制,将多数类样本划分若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,但在全局来看不会丢失信息。

过采样:不能简单的对初始样本进行重复采样,否则会招致严重的过拟合。代表性算法SMOTE,对训练集里的样本进行插值产生额外样本。

阈值移动:直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将式(1)嵌入决策过程中。
感觉题目说的不够严谨,,最合适的但是欠采样和过采样都有各自的缺点
原文:https://blog.csdn.net/qq_18888869/article/details/88807483 

发表于 2019-03-26 11:20:30 回复(0)
负载不均衡时方法主要有
A重采样
c采样
D调整权值
发表于 2018-05-11 16:21:37 回复(0)
B为什么不对,直接分类然后调整阈值不可以吗,还有就是A不会导致严重的过拟合吗
发表于 2017-08-28 21:54:51 回复(0)
A和D的效果理论上是一样的,但考虑到实际过程中分类器的训练过程,对于树模型而言,A的效果要比D好,对于线性分类器而言,线性可分的情况下,采样和权重都没有关系。 最终都可以有分界面分出来。但对于线性不可分的情况下,二者差距似乎没有那么大。KNN的情况应该也差不多,但可以肯定的是重采样一般不会简单复制,都会加入微小的扰动,这种情况下冲采样是要优于赋权重。
发表于 2016-08-18 14:57:28 回复(0)
<p>权重乘与数量相等就可以</p>
发表于 2020-10-04 11:43:01 回复(0)

这题目一个最字,让我选来选去只挑了一个D。C的欠采样,损失的信息太多了,A的过采样又让模型欠拟合,毕竟简单复制的数据是完全没有更多信息的。

发表于 2019-03-12 14:48:10 回复(0)
其实a的正确还有待商榷,对于不是非常复杂的情况一般不要这样做。
发表于 2019-03-08 09:57:52 回复(0)
解决这类问题的办法 :重采样、欠采样、调整权值
发表于 2018-08-05 10:44:34 回复(0)
不是说"最"合适吗。。。我以为只能选一个呢。
发表于 2018-04-05 09:44:34 回复(0)
具体问题具体分析,乱用的结果会非常差
发表于 2017-11-03 00:08:32 回复(0)
题目貌似有点问题,不应该问最合适吧。ACD是常用的一些方法,也有将欠采样和过采样结合用的。
发表于 2017-09-11 22:12:52 回复(0)
链接:https://www.nowcoder.com/questionTerminal/f0edfb5a59a84f10bf57af0548e3ec02?toCommentId=694104
来源:牛客网

1. 上采样。


2. 下采样。



3. 数据权值调整。

发表于 2017-09-05 21:26:52 回复(0)
考查的解决数据不平衡的常用方法。
发表于 2017-08-06 09:56:32 回复(1)
正负样本不均衡处理 过采样 欠采样
发表于 2017-04-30 19:20:39 回复(0)