2018-10-07 22:57 已编辑腾讯_微信事业部_客户端开发

关注

数据归一化中"均值归一化"的问题

小弟这几天在看机器学习入门的书，今晚看到归一化的时候产生一个问题，阐述如下：

书上说机器学习多使用的归一化方法是均值方差归一化，这种归一化可以很好的解决数据中出现极端值的问题，在对training_data和test_data处理方面，test_data使用的mean和std都是train的mean和std，这些我都理解，但是我发现一个问题，如果在均值归一化处理test_data的时候，使用的max和min也是training的，那么很有可能出现test_data大于1或者小于0的情况啊。举例如下：

training_data中max = 50，min = 10，新来了一个test_data = 60，那么均值归一化的结果就是 = ( 60 - 10) / (50 - 10 ) = 1.25 > 1。

书上说是meanScaler是机器学习常用的方法，偶尔也会使用均值归一化，但是使用均值归一化的时候出现上面的问题怎么办呢？

求教大佬们

全部评论

推荐最新楼层

中国科学院大学算法工程师

train和test放在一起搞

点赞回复分享

发布于 2018-10-08 16:36

我要年薪150w

阿里巴巴集团_算法工程师

你把train的max和min记录下来测试集直接就用这两个做归一化就OK了，如果都是1或0那说明你的数据有问题。两者分布差太多。

点赞回复分享

发布于 2018-10-08 06:36

机灵的候选人在参加牛客活动

华南理工大学算法工程师

少量超出范围一般不影响，大量出现说明数据集分布差异太大，数据集划分有问题

点赞回复分享

发布于 2018-10-08 02:27

牛哥哥哥哥

南京理工大学算法工程师

搞学术的时候通常自己划分训练集测试集，这时可以训练集和测试集统一归一化；但实际工程中不可能，所以只能对训练集进行归一化，会发生你说的这种情况，但无所谓啊，我们训练模型本来就是为了考验模型的泛化能力啊。。。

点赞回复分享

发布于 2018-10-07 22:07

05-17 20:42

门头沟学院前端工程师

传统前端转AI Agent,求职分析与记录，供参考

1.BOSS直聘AI 前端岗位JD要求传统前端工程师（薪资 20K–40K）涵盖 6 大技能维度：核心技能HTML5 / CSS3 / JavaScript (ES6+)、React / Vue / Angular、TypeScript / JSX / Vue3、状态管理（Redux / Pinia / Vuex）工程化 & 构建Webpack / Vite / Rollup、Babel / ESLint / Prettier、npm / pnpm / Yarn框架与生态前端组件库（Ant Design / Element Plus 等）、UI 设计与交互、前端路由 / 状态管理网络与...

点赞评论收藏

分享

05-20 14:54

已编辑

门头沟学院 Java

27届暑期至今0offer

✉️投递：简历挂：美团、阿里、小红书、小米筛选中：b 站、携程、腾讯音乐、得物、360、腾讯云智、爱奇艺、华为💬面试：字节 一面挂腾讯 一面挂蚂蚁 两次一面挂快手 一面挂滴滴 二面挂京东 终面挂本人双非本211硕，有一段中厂后端开发实习，想走java后端/agent开发方向，从3月份开始投递以来到现在屡战屡败，总结了下自己确实前几次面试没有把握住机会，对实习、个人项目掌握的不是很透彻，面试的时候问深了就会露怯。后续只能继续沉淀一下，看能否找个日常先干着，不过现在日常基本上没什么hc，也是希望渺茫。很快九月份秋招就要开始了，不知道秋招是否比现在机会更多些？眼看着大家开始打牌，鼠鼠我属实有点着急...

我的求职进度条

点赞评论收藏

分享

04-26 21:42

南京邮电大学 C++

丝滑入池，希望能泡出来

牛客41077653...：想问一下华为池子是不是很大呀

点赞评论收藏

分享

04-15 18:11

中国人民大学前端开发其它

面试官角度谈谈还要刷力扣吗

上周组里招人，我面了六个候选人，回来跟同事吃饭的时候聊起一个让我挺感慨的现象。前三个候选人，算法题写得都不错。第一道二分查找，五分钟之内给出解法，边界条件也处理得干净。第二道动态规划，状态转移方程写对了，空间复杂度也优化了一版。我翻他们的简历，力扣刷题量都在300以上。后三个呢，就有点参差不齐了。有的边界条件没处理好，有的直接说这道题没刷过能不能换个思路讲讲。其中有一个女生，我印象特别深——她拿到题之后没有马上写，而是先问我：“面试官，我能先跟你确认一下我对题目的理解吗？”然后她把自己的思路讲了一遍，虽然最后代码写得不是最优解，但整个沟通过程非常顺畅。这个女生的代码不是最优的，但当我问她“如果这里是线上环境，你会怎么设计’的时候，她给我讲了一套完整的方案——异常怎么处理、日志怎么打、怎么平滑发布。她对这是之前在实习的时候踩过的坑。”我在想LeetCode到底在筛选什么？我自己的经历可能有点代表性。我当年校招的时候，也是刷了三百多道题才敢去面试。那时候大家都刷，你不刷就过不了笔试关。后来工作了，前三年基本没再打开过力扣。真正干活的时候，没人让你写反转链表，也没人让你手撕红黑树。更多的是：这个接口为什么慢了、那个服务为什么OOM了、线上数据对不上了得排查一下。所以后来我当面试官，慢慢调整了自己的评判标准。算法题我还会出，但目的变了。我出算法题，不是想看你能不能背出最优解。而是想看你拿到一个陌生问题的时候，是怎么思考的。你会先理清题意吗？你会主动问边界条件吗？你想不出来的时候会怎么办？你写出来的代码，变量命名乱不乱、结构清不清楚？这些才是工作中真正用得到的能力。LeetCode是一个工具，不是目的。它帮你熟悉数据结构和常见算法思路，这没问题。但如果你刷了三百道题，却说不清楚自己的项目解决了什么问题、遇到了什么困难、你是怎么解决的，那这三百道题可能真的白刷了。所以还要不要刷LeetCode？要刷，但别只刷题。刷题的时候，多问自己几个为什么：为什么用这个数据结构？为什么这个解法比那个好？如果换个条件，解法还成立吗？把刷题当成锻炼思维的方式，而不是背答案的任务。毕竟面试官想看到的，从来不是一台背题机器，而是一个能解决问题的人。

牛客51274894...：意思是光刷力扣还不够卷

AI时代还有必要刷lee...

点赞评论收藏

分享

昨天 16:04

已编辑

苏州工艺美术职业技术学院通信技术工程师

如何把实习杂活包装成吸引HR眼球的黄金经历

先泼一盆冷水：实习生，尤其是前期，不打杂是不可能的。公司付钱，本质上就是购买你处理确定性事务的时间，来释放正式员工处理不确定性问题的带宽。但这里藏着一个巨大的信息差和机会差：公司以为它买的是你的“劳动力”，但你可以学到的，是一整套“职业化”的底层操作系统。第一步：翻译黑话，从动词升级不要写你“做了什么”，要写你“创造了什么改变”。每天筛简历，打电话约面试负责简历筛选与面试邀约执行人才初筛与触达：日均处理150+份简历，建立关键词标签库，实现初筛效率提升40%更新招聘表格，统计面试数据协助维护招聘数据主导招聘数据运营：独立维护实时招聘看板，通过数据异常波动预警，助力面试到场率提升15%整理面试官...

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如何成为1个AI工程师？ #

7977次浏览 348人参与

# 绿盟笔试 #

5921次浏览 56人参与

# 26届春招投递记录 #

43643次浏览 359人参与

# 选实习，你更看重哪方面？ #

84628次浏览 523人参与

# 27届实习投递记录 #

133424次浏览 1467人参与

# 我想去国央企的原因 #

81153次浏览 423人参与

# 工作压力大，你会干什么？ #

86684次浏览 725人参与

# 机械/制造每日一题 #

99631次浏览 1506人参与

# 毕业季，给职场新人一些建议 #

226277次浏览 2618人参与

# 小米编程考试 #

42172次浏览 159人参与

# 你觉得机械有必要实习吗 #

89791次浏览 540人参与

# 我在大厂见过的最低学历 #

9460次浏览 82人参与

# 机械人，说说你的烦心事 #

152389次浏览 1191人参与

# 除了线上，还能去哪些地方投简历 #

24402次浏览 160人参与

# 面试被问期望薪资时该如何回答 #

407614次浏览 2224人参与

# 你觉得第一学历对求职有影响吗？ #

278228次浏览 1503人参与

# 你面试被问到过哪些不会的问题？ #

124624次浏览 1950人参与

# 虹软科技求职进展汇总 #

18942次浏览 141人参与

# 机械人你觉得今年行情怎么样？ #

10278次浏览 100人参与

# 秋招拿一个offer可以躺平吗 #

278960次浏览 1417人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务