3-7 机器学习在业务面试中的应用_牛客网

牛客684794286号

门头沟学院机器学习发布于江苏

关注

@Daisy_ll： 3-7 机器学习在业务面试中的应用

   关于机器学习在数据分析面试中可能遇到的具体内容我们会在后面的章节中介绍，这一节中更加侧重于如何表达机器学习项目或者在业务面试中如何回答机器学习问题。    在面试中会怎么提问呢？     如果简历中有机器学习相关的项目或者比赛，面试官可能会问：你来介绍下这个项目？     如果是面试金融类的企业，可能会说：让你来做模型，对借贷人进行风控，该怎么去做？     如果是电商类的企业，可能会问：你会怎样识别出羊毛党用户呢？具体的流程如何？     如果是内容类企业，问题可以是：你会根据哪些数据向用户推荐合适的内容，具体的方案流程是什么？     这些问题都可以看成是机器学习在业务面试中的应用，这一步一般不会涉及到算法原理的考察，更加重视候选人能够依据“数据预处理-特征工程-模型训练-测试上线”等流程，清楚的表达自己的项目内容。在回答完这个问题后，针对你所选择的模型，面试官还可能进行更加深入的算法提问（当然不会像算法岗一样难）。     我们以“构建风控模型，判断是否能够借款”为例，简单介绍一下回答这种问题整个流程。注意：在本文中，不会对统计学以及算法的原理性知识进行具体的介绍，相关内容可以等待后续的数理统计以及机器学习模型专题。本文的主要目的是帮助同学们梳理思路，解决“在面试中按照什么流程表达自己的模型项目”以及“遇到有关机器学习的场景题时回答顺序是什么”的问题。          在风控模型中判断是否能够向客户放款，就是对借款人的违约率进行预测，如果违约率高于某一概率，则不会对此人放款，违约率低于某一概率，会进行放款操作。           【一、数据预处理】     这里说的数据预处理主要是数据的清洗和转化。我们重点说下面试中最常遇到的缺失值、异常值、数据转化、数据规范化等处理。     1.缺失值     在样本数据中，总会因为各种原因导致数据的缺失，主要处理方法包括删除和填充。             （1）一般来说，若缺失率高达50%以上，且重要性较低，可以考虑删除变量。比如在这样一个风控数据中，有一个变量为“距最高学历毕业时长”，缺失值高达70%，且现有的变量和用户是否有违约行为之间并不存在显著的相关关系，可以考虑删除变量。     （2）如果缺失率比较低，可以通过各种方式进行缺失值的填充，常见方法包括：     ①均值填充，中位数填充，众数填充等——如果变量分布较均匀可以用均值填充，如果存在偏态分布可以用中位数填充，如果是离散变量可以用众数填充；比如针对“信用卡数量”这一变量，可能会优先考虑中位数填充，因为绝大多数的人信用卡数量集中在1-3张的区间里，这个变量很可能是偏态分布的。     ②模型预测填充，可以采用回归，随机森林等模型对缺失值进行预测，利用模型结果填充数据。     ③哑变量填充，又叫虚拟变量填充，主要用于离散数据的处理。例如有一列sex（性别），利用哑变量转化时，可以拆分为3列：sex_is_male, sex_is_female, sex_is_na。若该样本为男性用户，则sex_is_male=1, sex_is_female=0, sex_is_na=0。           2.异常值     在样本中，处于特定分布区域之外的数据可能会被我们认为是异常或者噪声。异常值可以有两种，其一是“假异常值”，这是业务在某种特定背景下产生的数据，反映了一种真实的状态，比如P2P平台活动期间的投资额与日常投资额相比存在较大的差异。其二才是“真异常值”，不由业务引起，而是数据本身的问题。主要可以用以下方式来检验异常点：             （1）3倍标准差原则，比如数据与均值的差异大于3倍标准差，可以粗略的定义为离群点；     （2）根据聚类算法，远离主要簇的小簇或者个别样本点可以视为异常值；     （3）基于分位数判断离群点，这里可以利用python或者R快速的计算判断。在这里，异常值被定义为小于Q1-K(Q3-Q1)或大于Q3+K(Q3-Q1)。Q1和Q3分别代表下四分位数和上四分位数，K一般取值1.5，代表中度异常，若K=3，可代表极度异常。     针对异常值，可以选择和缺失值一样的处理方法进行填充。     3.数据转化     对于非数值型的数据我们需要进行简单的转化，将其变为数值型，方便建模处理。主要分为定序型数据和定类型数据。             （1）针对定序型的数据，可以用序号进行编码，如客户对风险的理解层次，分为Good，Average，Bad三档，在进行序号编码时，可以根据大小关系进行赋值，如Good标记为3，Average标记为2，Bad标记为1。     （2）对于定类型的数据，可以采用one-hot编码，比如学历数据为高中，本科，硕士，那么高中表示为(1,0,0)，本科表示为(0,1,0)，硕士表示为(0,0,1)。     4.数据分箱     数据分箱是一种将连续值进行“分组”的方法。比如我有年龄变量连续数据，在构建模型时，发现将0-18岁归为1，19到55岁归为2，56岁以上归为3，会有更稳定的效果。一方面能够剔除掉极端数据的影响，比如年龄中若出现150的数值，也能够划分到第三个分箱；另一方面这种特征离散化的处理，能够简化模型，避免过拟合。             常用的分箱方法有：     （1）卡方分箱，卡方分                        

点赞 1

评论 0

全部评论

推荐最新楼层

07-29 15:09

OPPO_AI算法部_AI研究员(准入职员工)

关于工作环境：base深圳前海 内部配置绝了。一整栋50层都是oppo哒，我的工位可以看到欢乐港湾和大海，零食柜自给，很感动的是每层都提供独立的隔音室，3层饭堂里，23楼是最好吃的 周边很繁华。楼下三层是大商场，午饭后我一般会和其他实习生姐妹去citywalk，好多奶茶店，茶救，奈雪 喜茶，瑞幸，奶白，煲珠公每天换着喝，好幸福 关于工作氛围 感受到相当年轻，相当扁平的氛围，我们组（销售运营部）有三个哥哥姐姐直接对接我，她们人真的很nice，笨笨的我不会时，问她们都会耐心解答~~ 关于工作内容 感觉出入还是有的，问了哥哥姐姐，他们收到五六十份简历，面了6个，最后选了我，好感动好幸运。偏大客户运营...

字节跳动公司福利 1027人发布

点赞评论收藏

分享

07-24 09:42

滴滴_测试开发(准入职员工)

滴滴内推，滴滴内推码，全流程跟进

先说结论：非常安利！！！在上内推码：DSBHuTXN 在滴滴成长很快，对新人有培养体系。老板们和同事都很职业，能力强，培养了我比较好的职业习惯，也拿到了比较好的结果。当然有时候压力也会大一点点，挺过去就好了。 上下班不打卡，包晚餐，9点后打车免费。有商保报销90%，过节有公司礼盒。有人情味，相较其他厂老人（3年以上司龄）相对更多些！⭐关于职场氛围：真的很爱滴滴🍊的氛围，大家都很亲近，组里人也会一起吃饭，而且经常被请客，嘻嘻。还有就是可能职场不是很大，整个二楼一半人我都认识了！我从最开始比较害羞到慢慢主动和别人搭话噜，感觉这次实习认识的小伙伴还是比较多的！ ⭐关于成长：mt和同事不管在日常工作...

滴滴公司福利 1159人发布

点赞评论收藏

分享

06-04 18:09

太湖创意职业技术学院汽车制造其它

临近实习，迟迟找不到机会，求实习😭

我的实习求职记录

点赞评论收藏

分享

06-02 15:53

阳光学院 Java

已老实，求内推

福州25届普本专升本之后更难找工作了前端后端都可以干

求offer的大角牛：别怪我打击你哥们，你这个简历确实是一坨。

今年形式下双非本找得到工...

点赞评论收藏

分享

07-24 15:22

深圳大学运营

国企入职体检不过能入职？有人卡在最后一步……

体检报告被盖上‘不合格’印章是什么体验？”一位刚通过某央企入职体检的网友吐槽：“抽血三次才过关，血压差点爆表，比面试还紧张！”国企体检到底严不严？一句话总结：比私企严格，但比当兵宽松；卡的是红线疾病，放的是小毛病！一、流程严格：像考试一样被“盯”着体检指定医院+专人监督多数国企会统一包车拉人去定点三甲医院，人事全程盯着排队、填表、抽血，甚至拍照核对身份。想找朋友替检？监控人脸识别系统直接劝退！项目多到像“全身扫描”基础套餐包括：血常规18项（查贫血/炎症）、肝功能（转氨酶是重点）、心电图（筛查心脏病）、胸透（肺结核必查）、尿常规（肾病藏不住）。特殊岗位加餐更狠：飞行员测高频听力，化工岗查重金属...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届的你，投了哪些公司？ #

17382次浏览 207人参与

# 我对___祛魅了 #

27671次浏览 267人参与

# 中兴秋招 #

194481次浏览 2173人参与

# 你最讨厌面试问你什么？ #

11717次浏览 172人参与

# 你跟室友的关系怎么样？ #

3113次浏览 59人参与

# 工作中哪个瞬间让你想离职 #

45881次浏览 404人参与

# 简历上的经历如何包装 #

11337次浏览 360人参与

# 你遇到最难的面试题目是_ #

4246次浏览 78人参与

# 如何快速融入团队？ #

9880次浏览 121人参与

# 和同事相处最忌讳的是__ #

13481次浏览 137人参与

# 通信/硬件求职避坑tips #

86004次浏览 868人参与

# 什么样的背景能拿SSP? #

15404次浏览 122人参与

# 毕业后不工作的日子里我在做什么 #

190345次浏览 1633人参与

# 应届生应该先就业还是先择业 #

124889次浏览 695人参与

# 字节跳动工作体验 #

458442次浏览 4625人参与

# 如何排解工作中的焦虑 #

190589次浏览 1958人参与

# 多益网络求职进展汇总 #

30972次浏览 138人参与

# 总结:哪家公司面试体验感最差 #

63262次浏览 287人参与

# 元戎启行求职进展汇总 #

35990次浏览 278人参与

# 我和mentor的爱恨情仇 #

61820次浏览 379人参与

# 实习生活中那些难忘的瞬间 #

164211次浏览 2441人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务