训练数据分布 vs 真实数据分布

真实场景中，label为a和b的样本分别占到了90%、10%。试问：在构造训练集（**小数据量**）的时候应该如何处理a,b的占比？（下面两种方案好像都有道理，但是好像又都不太理想。）

方案1.按照真实场景中的比例（i.e. a:b = 9:1）构造训练集。这样符合一个基本常识“训练集的分布应该尽可能和真实分布相近”，但是会造成模型对a的偏好。

方案2.按照a:b = 1:1构造训练集。这样的话模型学的更均衡，但是不符合“训练集的分布应该尽可能和真实分布相近”。

#阿里# #腾讯# #字节# #拼多多# #百度# #算法# #机器学习#

全部评论

推荐最新楼层

nacaer

门头沟学院数据分析师

蹲一个答案。感觉是看场景一般就训练模型而言应该都是希望样本平衡吧。如果希望抓到小比例的那部分的话方案2更好？如果两类都一样重要感觉方案1也行就是会变成极度偏态的样子（全预测成a）

点赞回复分享

发布于 2023-10-15 14:43 江苏

03-25 15:11

中央美术学院附属中等美术学校 Java

神州信息一面

补档：hr和技术面同时进行hr主要问一些校内成绩有没有挂科，然后就是base地点，薪资期望还有家里和实习技术面狠狠拷打了项目，感觉讲的有点不好，逻辑还是没有理顺，没有问八股。估计没有后文了，说通过下周发心里测评。实习的话是包装了包装，被狠狠拷打了，一问你这个具体干啥了，和谁对接的，怎么处理的，指标怎么得出来的就懵逼了，想办法解决了得，建议一定要对项目熟的不能再熟。

查看7道真题和解析

点赞评论收藏

03-26 07:41

蚌埠坦克学院嵌入式软件开发

拓竹嵌入式软件开发一面面经

1. FreeRTOS 中任务栈溢出是如何检测的？configCHECK_FOR_STACK_OVERFLOW 的两种模式有什么区别？答：FreeRTOS 提供两种栈溢出检测方式，通过 configCHECK_FOR_STACK_OVERFLOW 配置：模式1：在任务切换时检查栈指针是否超出栈边界。速度快，但如果溢出后栈指针又回来了，可能漏检。模式2：在任务创建时用固定值（0xA5）填充整个栈空间，切换时检查栈末尾的几个字节是否被改写。检测更可靠，但有轻微性能开销。两种模式都会在检测到溢出时调用 vApplicationStackOverflowHook()，用户在这里处理错误（比如打印任务名...

嵌入式面试八股文全集

点赞评论收藏

03-10 14:49

华南理工大学 Java

提问，到底怎么样才能通过一面

感觉我的简历在本科生中也不算差，面试的时候八股和算法只要不挖的太深都回答的上来，为什么老是被一面挂😭最近被一面挂麻了，即使问了面试官对我的印象说还不错也仍然被一面挂，真有点怀疑人生了😭

秋招你被哪家公司挂了?

点赞评论收藏

03-25 18:24

广东海洋大学前端工程师

前端真的凉透了吗？

简历如下，也是改了不下十版了三月初开始投递，到现在感觉投递了有个1500家了（实习，全职）面了10家左右的样子（都是线上的，线下的我一律当做刷kpi没接，现在感觉线上线下都是刷KPI的），笔试倒是做了不少，收到了两份实习offer都拒绝了（一个140/天+外地，一个120/天本地初创）最近也不知道投啥了，想着春招实习两手抓，但是投递的很多岗位有要求1-3年经验，投出去也是石沉大海杳无音信，偶尔有几个回复，然后就是笔试面试，再无后续慢慢的也有点蕉绿起来了😭😭还有课设，论文乱七八糟的当时还选择了考研，找学长问考研经验，学长第一句话就是不建议考研，当时还不以为然，现在想想……

smile丶snow：感觉可以加一些ai相关的内容吧。现在面试很少能逃掉这些问题。羡慕里面感觉缺少一个项目背景。比如第二个项目后台管理系统…你为什么要做这个后台管理系统呢？是为了解决什么问题。比如你管理一个商品列表的增加减少。需要一个背景吧。哦或者说你第一个电子书那个是c端的，你肯定需要一个管理系统吧，那就是第二个后台管理系统，但这两个难道不应该是一个项目吗？可以稍微包装一下，最起码让人看着不是玩具项目。个人观点。

点赞评论收藏