训练数据分布 vs 真实数据分布
真实场景中,label为a和b的样本分别占到了90%、10%。试问:在构造训练集(**小数据量**)的时候应该如何处理a,b的占比?(下面两种方案好像都有道理,但是好像又都不太理想。)
方案1.按照真实场景中的比例(i.e. a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。
方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。
#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
方案1.按照真实场景中的比例(i.e. a:b = 9:1)构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”,但是会造成模型对a的偏好。
方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡,但是不符合“训练集的分布应该尽可能和真实分布相近”。
#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#
全部评论
蹲一个答案。感觉是看场景 一般就训练模型而言应该都是希望样本平衡吧。如果希望抓到小比例的那部分的话方案2更好?如果两类都一样重要感觉方案1也行 就是会变成极度偏态的样子(全预测成a)
相关推荐
03-25 18:24
广东海洋大学 前端工程师
smile丶snow:感觉可以加一些ai相关的内容吧。现在面试很少能逃掉这些问题。羡慕里面感觉缺少一个项目背景。比如第二个项目后台管理系统…你为什么要做这个后台管理系统呢?是为了解决什么问题。比如你管理一个商品列表的增加减少。需要一个背景吧。哦或者说你第一个电子书那个是c端的,你肯定需要一个管理系统吧,那就是第二个后台管理系统,但这两个难道不应该是一个项目吗?可以稍微包装一下,最起码让人看着不是玩具项目。个人观点。 点赞 评论 收藏
分享
查看7道真题和解析