数据归一化中"均值归一化"的问题

小弟这几天在看机器学习入门的书,今晚看到归一化的时候产生一个问题,阐述如下:
书上说机器学习多使用的归一化方法是均值方差归一化,这种归一化可以很好的解决数据中出现极端值的问题,在对training_data和test_data处理方面,test_data使用的mean和std都是train的mean和std,这些我都理解,但是我发现一个问题,如果在均值归一化处理test_data的时候,使用的max和min也是training的,那么很有可能出现test_data大于1或者小于0的情况啊。举例如下:
training_data中max = 50,min = 10,新来了一个test_data = 60,那么均值归一化的结果就是 = ( 60 - 10) / (50 - 10 ) = 1.25 > 1。
书上说是meanScaler是机器学习常用的方法,偶尔也会使用均值归一化,但是使用均值归一化的时候出现上面的问题怎么办呢?
求教大佬们
全部评论
train和test放在一起搞
点赞 回复 分享
发布于 2018-10-08 16:36
你把train的max和min记录下来 测试集直接就用这两个做归一化就OK了,如果都是1或0那说明你的数据有问题。两者分布差太多。
点赞 回复 分享
发布于 2018-10-08 06:36
少量超出范围一般不影响,大量出现说明数据集分布差异太大,数据集划分有问题
点赞 回复 分享
发布于 2018-10-08 02:27
搞学术的时候通常自己划分训练集测试集,这时可以训练集和测试集统一归一化;但实际工程中不可能,所以只能对训练集进行归一化,会发生你说的这种情况,但无所谓啊,我们训练模型本来就是为了考验模型的泛化能力啊。。。
点赞 回复 分享
发布于 2018-10-07 22:07

相关推荐

10-29 16:42
门头沟学院 Java
1.今天什么国标的公司打电话约面试,还得准备ppt,好麻烦,网上查薪资一般,打算拒了,不面了2.字节又复活了,什么安全开发,也不知道怎么样,面一面试试吧,还是挺想去字节的,但好难,随缘吧所以今天没面试
嵌入式的小白:面试前可以好好准备下 1.看看你投递的岗位的岗位描述,分析下是哪个业务线,同使要罗列他们描述中提到的技术点 2.根据1中的两点准备 3.岗位描述中应该还有语言要求,这个刷刷八股,要是对自己语言能力很有把握,那就不用看这点了 4.找下你简历中项目部分,看有没有和岗位描述中技术点重合的,这种在面试提到项目时,是高概率问题 好好准备,祝你面试顺利
我的求职进度条
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务