训练数据分布 vs 真实数据分布

真实场景中,label为a和b的样本分别占到了90%、10%。试问:在构造训练集(**小数据量**)的时候应该如何处理a,b的占比?(下面两种方案好像都有道理,但是好像又都不太理想。)

    方案1.按照真实场景中的比例(i.e.  a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。 

    方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。 

#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
全部评论
蹲一个答案。感觉是看场景 一般就训练模型而言应该都是希望样本平衡吧。如果希望抓到小比例的那部分的话方案2更好?如果两类都一样重要感觉方案1也行 就是会变成极度偏态的样子(全预测成a)
点赞
送花
回复
分享
发布于 2023-10-15 14:43 江苏

相关推荐

3 4 评论
分享
牛客网
牛客企业服务