2021-07-17 13:43 中国科学院大学大数据开发工程师

关注

数值特征的预处理

首先机器学习模型可以大致分为两大类：

- Tree-based models
- Non-tree-based models

对于Tree-based models，比如决策树分类器来说，因为数值缩放不影响分裂节点位置，对树模型的结构不造成影响。故对此类模型来说，对数值特征原则上无需进行预处理。

对于Non-tree-based models，比如线性模型，KNN, 神经网络来说，模型的质量依赖特征的尺度，下面介绍一些最常用的数值特征的预处理方法。

regularization
regularization最常用的方法：
- MinMaxScaler: X=(X-X.min())/(X.max()-X.min())
- StandardScaler: X=(X-X.mean())/X.std()
regularization的影响：
- regularization impact turns out to be proportional to feature scale;
- gradient descent methods can go cracy without a proper scaling;
- differnt feature scaling result in diffrent models quality;
outliers
- outliers可能出现在feature values, 也可能出现在target values中；
- 有效的处理手段：clip feature values between two chosen values of lower bound and upper bound. eg, some percentiles of that feature.
rank transformation
- can be better option than MinMaxScaler if we have outliers, becanse rank transformation will move the outliers closer to other objects.
log transformation
- drive two big values closer to the feature's average value.
- 常用方法：np.log(1+x), np.sqrt(x+2/3)
数据融合
- concatenased data features produced by diffrent preprocessings;
- mix models training differntcy-preprocessed data

最后提一下feature generation

其定义是 creating new features using knowledge about the features and task.
有效的 feature generation 依赖于 creativity and data understanding.
方法： 1. prior knowladge, 2. EDA

全部评论

推荐最新楼层

04-29 15:21

阿里巴巴灵犀互娱_系统工程师(准入职员工)

灵犀互娱内推-灵犀互娱内推码

产品运营面经，摘自牛油1、自我介绍2、实习经历深挖（我之前有过新媒体运营的实习经历，有问我关注哪些方面的数据）3、为什么想做产品运营？产品运营关注哪些方面？4、玩过什么游戏？玩游戏的频率如何？为什么没有玩其他类型的游戏？5、有了解过游戏垂类圈层吗？如果需要你整理某一类游戏的TOP10榜单，你会从哪些渠道收集信息？6、作为产品运营，如果由你来决定新游、热游在游戏垂类圈层的排版，你会怎么安排？7、如果按照你的安排，新游并没有增加相应热度，而热游热度依旧比较高，你会怎么处理这个情况？8、你是什么样的人？（自我评价）兴趣爱好有哪些？9、3-5年的职业规划是？10、反问阿里灵犀互娱26届暑期实习生（可转...

点赞评论收藏

分享

04-29 14:19

门头沟学院嵌入式软件工程师

牧原嵌入式笔试分享

牧原嵌入式笔试:1.一点c语言2.基本都是单片机3.原码、补码、反码4.无符号数的循环判断5.单片机四种输入输出模式:上拉、下拉、推挽、开漏6.最主要是外设功能7.linux系统的正确说法8.ADC常用哪种模式9.结构体的大小和赋值，struct{int a[0];的大小。10.结构体的赋值:struct{int a[0],int b,int c[O];}s;s s1;s1.a[0]=1,s1.b=2,s1.c[0]=311.keil-9的功能是什么全网最受欢迎的嵌入式笔试专栏笔试专栏包含全部最新的笔试必考考点，4.7w+同学学习，2800+订阅，非常适合在找工作面经薄弱的同学，3000+订阅...

投递牧原集团等公司6个岗位 > 大疆的机械笔试比去年难吗面试之前应该如何准备？

点赞评论收藏

分享

03-05 12:52

吉林大学 Java

这是正常人吗？

在boss投的实习岗。。。

挣K存W养DOG：他的价值在于把他家里积攒的财富回馈给社会

点赞评论收藏

分享

04-29 14:54

米哈游_游戏运维

米哈游米哈游内推米哈游实习内推米哈游校招内推

🌟【米哈游2025春招内推通道开启！毕业即大厂，有米选米准没错！】🌟👉 春招黄金期，用内推码【ZK8ER】，直通米哈游核心岗位，校招竞争力拉满！📌 如何上车？内推直通链接：https://jobs.mihoyo.com/m/?sharePageId=76669&recommendationCode=ZK8ER&isRecommendation=true#/campus/position必填内推码：ZK8ER （否则视为普通申请！）私信我：发送“岗位+姓名”至本帖，帮你加急跟进！扫码投递↓⏰ 网申时间：即日起-2025年5月5日📅 欢迎25届和26届的同学看过来，暑期实...

米哈游公司福利 3761人发布

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 找工作，行业重要还是岗位重要？ #

9077次浏览 124人参与

# 五一之后，实习真的很难找吗？ #

47768次浏览 345人参与

# 盲审过后你想做什么？ #

13163次浏览 117人参与

# 外包能不能当跳板？ #

22462次浏览 192人参与

# 你觉得通信/硬件有必要实习吗？ #

92678次浏览 891人参与

# 国企还是互联网，你怎么选？ #

122902次浏览 951人参与

# 领导秒批的请假话术 #

10373次浏览 76人参与

# 潍柴工作体验 #

17100次浏览 17人参与

# 设计人如何选offer #

98737次浏览 690人参与

# 五一假期，你打算“躺”还是“卷”？ #

35190次浏览 461人参与

# 蚂蚁集团工作体验 #

10865次浏览 70人参与

# 小厂实习有必要去吗 #

42421次浏览 260人参与

# 应届生进小公司有什么影响吗 #

67337次浏览 984人参与

# 一句话证明你在找工作 #

292654次浏览 2411人参与

# 面试等了一周没回复，还有戏吗 #

116297次浏览 1079人参与

# 你觉得比亚迪今年还有春招吗？ #

186357次浏览 1048人参与

# 大疆的机械笔试比去年难吗 #

69749次浏览 603人参与

# 硬件人，你被哪些公司给挂了 #

46950次浏览 725人参与

# 创作灵感 #

96653次浏览 1475人参与

# 如果不工作真的会快乐吗 #

101692次浏览 871人参与

牛客网
牛客企业服务