数值特征的预处理

首先机器学习模型可以大致分为两大类:

- Tree-based models
- Non-tree-based models

对于Tree-based models,比如决策树分类器来说,因为数值缩放不影响分裂节点位置,对树模型的结构不造成影响。故对此类模型来说,对数值特征原则上无需进行预处理。

对于Non-tree-based models,比如线性模型,KNN, 神经网络来说,模型的质量依赖特征的尺度,下面介绍一些最常用的数值特征的预处理方法。

  1. regularization
    regularization最常用的方法:

    • MinMaxScaler: X=(X-X.min())/(X.max()-X.min())
    • StandardScaler: X=(X-X.mean())/X.std()

    regularization的影响:

    • regularization impact turns out to be proportional to feature scale;
    • gradient descent methods can go cracy without a proper scaling;
    • differnt feature scaling result in diffrent models quality;
  2. outliers

    • outliers可能出现在feature values, 也可能出现在target values中;
    • 有效的处理手段:clip feature values between two chosen values of lower bound and upper bound. eg, some percentiles of that feature.
  3. rank transformation

    • can be better option than MinMaxScaler if we have outliers, becanse rank transformation will move the outliers closer to other objects.
  4. log transformation

    • drive two big values closer to the feature's average value.
    • 常用方法:np.log(1+x), np.sqrt(x+2/3)
  5. 数据融合

    • concatenased data features produced by diffrent preprocessings;
    • mix models training differntcy-preprocessed data

最后提一下feature generation

  • 其定义是 creating new features using knowledge about the features and task.
  • 有效的 feature generation 依赖于 creativity and data understanding.
  • 方法: 1. prior knowladge, 2. EDA
全部评论

相关推荐

03-15 14:55
已编辑
门头沟学院 golang
bg:双非学院本 ACM银 go选手timeline:3.1号开始暑期投递3.7号第二家公司离职顽岩科技 ai服务中台方向 笔试➕两轮面试,二面挂(钱真的好多😭)厦门纳克希科技 搞AI的,一面OC猎豹移动 搞AIGC方向 一面OC北京七牛云 搞AI接口方向 一面OC上海古德猫宁 搞AIGC方向 二面OC上海简文 面试撞了直接拒深圳图灵 搞AIGC方向一面后无消息懒得问了,面试官当场反馈不错其他小厂没记,通过率80%,小厂杀手😂北京字节 具体业务不方便透露也是AIGC后端方向2.28约面 (不知道怎么捞的我,我也没在别的地方投过字节简历哇)3.6一面 一小时 半小时拷打简历(主要是AIGC部分)剩余半小时两个看代码猜结果(经典go问题)➕合并二叉树(秒a,但是造case造了10分钟哈哈)一天后约二面3.12 二面,让我挑简历上两个亮点说,主要说的docker容器生命周期管理和raft协议使用二分法优化新任leader上任后与follower同步时间。跟面试官有共鸣,面试官还问我docker底层cpu隔离原理和是否知道虚拟显存。之后一道easy算法,(o1空间解决 给定字符串含有{和}是否合法)秒a,之后进阶版如何用10台机加快构建,想五分钟后a出来。面试官以为45分钟面试时间,留了18分钟让我跟他随便聊,后面考了linux top和free的部分数据说什么意思(专业对口了只能说,但是当时没答很好)。因为当时手里有7牛云offer,跟面试官说能否快点面试,马上另外一家时间到了。10分钟后约hr面3.13,上午hr面,下午走完流程offer到手3.14腾讯技术运营约面,想直接拒😂感受: 因为有AIGC经验所以特别受AI初创公司青睐,AIGC后端感觉竞争很小(指今年),全是简历拷打,基本没有人问我八股(八股吟唱被打断.jpeg),学的东西比较广的同时也能纵向深挖学习,也运气比较好了哈哈可能出于性格原因,没有走主流Java路线,也没有去主动跟着课写项目,项目都是自己研究和写的哈哈
烤点老白薯:你根本不是典型学院本的那种人,贵了你这能力
查看7道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务