首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
Joanna啦啦啦
National University of Singapore 数据分析师
发布于北京
关注
已关注
取消关注
@弓早早:
数据分析基础知识——机器学习(4)
1. 特征工程的步骤?①数据理解和探索:首先了解数据集的结构、特点和问题,进行数据可视化和统计分析,发现异常值和缺失值。②数据清洗:处理缺失值、异常值和噪声,以确保数据的质量。③特征提取:从原始数据中提取新的特征。这可以包括从文本中提取关键词,从日期中提取年份等。④特征转换:对特征进行变化,使其更适合模型的要求。常见的转换包括标准化(使特征具有零均值和单位方差)、归一化(将特征缩放到一定的范围)、对数变换等。⑤特征选择:选择最具有信息量的特征,以减少模型复杂性和提高泛化能力。这可以通过统计方法、模型的特征重要性评估来实现。⑥特征构建:基于领域知识或创造性的想法,构建新的特征。例如,将多个相关特征合并、创建交互特征等。⑦降维:对高维数据进行降维,以减少存储和计算开销,并防止维度灾难。常用的降维方法包括主成分分析和线性判别分析等。⑧特征重要性评估:对特征的重要性进行评估,可以帮助理解哪些特征对模型的预测最为关键。⑨特征交叉验证:在模型训练过程中,通过交叉验证来验证特征的效果,以确保模型在不同数据子集上的稳定性。⑩迭代优化:特征工程是一个迭代的过程,需要不断地尝试不同的特征组合和变换,评估模型性能,然后进行调整和优化。2. 特征工程中对分类变量和数值变量分别做处理?分类特征的处理方法:①独热编码(one-hot encoding):将分类变量转化为一组二进制特征。每个可能的类别都会被编码成一个单独的二进制特征,其中一个为1,其余为0。这样可以避免给不同类别赋予不正确的顺序或权重。②标签编码:如果分类变量有明显的序关系,可以将其转化为连续的整数编码。但要注意,这种编码可能会引入错误的关系,因此只适用于有序分类。③频率编码:使用每个类别在数据中出现的频率来代替原始的类别标签。这可以捕捉类别的分布信息。④目标编码:对于分类目标变量,使用目标类别的平均值或其他统计量来替代类别标签,可以帮助模型学习类别与目标之间的关系。数值变量的处理方法:①标准化(Standardization):对数值变量进行标准化,使其均值为0,标准差为1。这可以确保不同的数值特征具有相似的尺度,有助于梯度下降等优化算法的收敛。②归一化(Normalization):将数值变量缩放到一个固定的范围,通常是[0,1]。这对于某些模型和距离度量可能很有用。③对数变换(Log Transformation):当数值变量呈现偏态分布时,可以用用对数变换来减小偏度,使其更接近正态分布。④离散化(Discretization):将连续的数值变量转化为离散的区间,可以帮助模型捕捉非线性关系。常见的离散化方法有下面几个:(1)等宽离散化:将连续的数据范围划分成相等宽度的区间。这样得到的离散化后的数据在每个区间内具有相同的间隔。但是,这种方法可能会导致某些区间内的样本较少,造成信息损失。(2)等频离散化:将数据分为每个区间内包含近似相同数量的数据点的区间。这可以保持每个区间内数据的分布相对均匀,但可能导致某些区间内的值范围较大。(3)聚类离散化:使用聚类方法将连续的数据聚成若干簇,然后将每个簇看作一个离散的值。这种方法可以根据数据的分布情况更好地划分区间。(4)自定义阈值离散化:基于领域知识或问题的特点,选择特定的阈值来将数据划分为不同的区间。这可以帮助捕获数据中的关键信息。(5)卡方分箱:根据卡方检验的统计方法来划分数据,以保证每个区间内的数据分布在统计上是显著的。⑤特征衍生:基于数值变量可以创建新的特征,比如交叉特征、多项式特征等,以增加模型的表达能力。3. 特征工程中的可视化?分类特征的可视化方法:①计数柱状图:显示每个类别的样本计数,帮用户了解每个类别的分布情况。②饼图:适用于展示不同类别的相对比例,可以直观地看到每个类别在总体中的贡献。③堆叠柱状图:如果有多个分类特征,可以使用堆叠柱状图来显示不同类别的组合。④热力图:可以展示分类特征之间的相关性,尤其适用于有多个分类特征时。数值型特征的可视化方法:①直方图:显示数值型特征的分布情况,有助于了解数据的范围、偏度和峰度。②密度图:与直方图类似,但通过平滑的曲线展示数据分布。③箱线图:可以显示数值型特征的分位数、中位数、离群值等信息。4. 建立模型?常见的机器学习模型:①线性回归:是一种用于建立输入特征与连续输出变量之间的关系的监督学习模型。它假设输入特征与输出之间存在线性关系。常用于预测、回归分析,例如房价预测、销售预测等。优点:简单易懂,容易解释模型;训练速度快;适用于线性关系较强的问题。缺点:对非线性关系的建模效果有限;对异常值敏感。②逻辑回归:是一种解决二分类问题的监督学习模型。它通过将线性组合的结果映射到0到1之间的概率值,然后根据阈值进行分类。广泛用于分类,如垃圾邮件检测、客户流失预测等。优点:简单且高效;适用于二分类问题。缺点:对多类别分类问题需要扩展。对特征之间的复杂关系不敏感。③主成分分析:PCA是一种无监督学习技术,用于降低高维数据的维度,保留最重要的特征。它通过找到数据中的主要方差方向来实现降维。用于数据压缩、可视化、去噪以及特征选择。优点:降维效果显著,可以去除冗余信息;数据可视化和压缩;减少了计算复杂度。缺点:可能丢失部分信息;需要假设线性关系。④K近邻算法:是一种基于实例的无监督学习算法,用于分类和回归。它根据与新数据点最近的K个邻居的标签来进行预测。常用于图像识别、推荐系统、异常检测等等。优点:简单易实现;适用于各种数据分布。缺点:对大型数据集计算开销大;对特征的尺度和权重敏感;需要选择合适K值。⑤自编码器:一种神经网络架构,用于无监督学习和特征学习。它试图将输入数据压缩到低维表示,然后重建原始数据,以捕捉数据的关键特征。用于特征学习、图像去噪、数据降维等。优点:可用于无监督学习和特征学习;可用于数据去噪和降维。缺点:训练深度自编码器可能需要大量数据和计算资源;超参数可能比较复杂。⑥随机森林:是一种集成学习方法,通过组合多个决策树来提高预测的准确性和稳定性。每个决策树都是基于随机抽样的数据和特征构建的。用于分类和回归问题,具有很强的预测能力和鲁棒性。优点:具有较高的预测准确性;能够处理大量特征和数据;对决策树拟合有一定的缓解作用。缺点:难以解释模型;在某些问题上可能过于复杂。⑦梯度提升:一种集成学习方法,通过迭代训练多个决策树来提高模型性能。每次训练新的树都试图修正一棵树的错误。优点:高度灵活,适用于各种问题;可以处理不平衡问题。缺点:对异常值敏感;训练时间超长。⑧决策树:它的工作原理类似于人类在面临决策时所采用的决策过程,通过树形结构表示不同的决策路径。每个内部节点表示一个特征或属性的测试条件,每个叶节点表示一个类别标签或回归值。优点:可自动选择重要特征,并且不需要对数据进行过多的预处理,如归一化或标准化。缺点:不稳定性——数据的微小变化可能导致决策树结构的巨大变化,这使得决策树不够稳定;可能产生高度复杂的树——在某些情况下,决策树可能会无法达到其他复杂模型的性能;当类别的分布不平衡时,决策树可能偏向于那些具有更多样本的类别;可能产生过拟合问题——决策树容易在训练数据集上过拟合,尤其是在树的深度很大或叶节点的样本数很小的情况下。这可以通过剪枝等技术来缓解。5.机器学习模型优化算法有哪些?①网络搜索:是一种通过穷举搜索超参数组合的方法,以找到最佳组合。首先,定义一个超参数的范围和候选值列表,然后通过不同组合进行训练和验证,最后选择性能最佳的组合。②随机搜索:随机搜索与网格搜索类似,但是它随机选择超参数的组合进行训练和验证,而不是穷举所有组合。随机搜索通常比网格搜索更高效,尤其是超参数的数量很大时。③贝叶斯优化:是一种基于贝叶斯推断的优化方法,它构建了一个代理模型来估计目标函数的性能,并选择下一个候选点以最小化不确定性。贝叶斯优化通常比随机搜索和网格搜索更高效,特别适用于复杂的优化空间。④交叉验证:是一种评估模型性能的方法,通常与超参数调优结合使用。它将数据分成多个子集,进行多次训练和验证,以准确评估模型的泛化性能。⑤模型调整:对于决策树等模型,可以通过限制模型结构,比如剪枝来控制树的复杂度,防止过拟合。
点赞 3
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
05-15 21:58
蚌埠坦克学院 嵌入式软件开发
我想回到妈妈的18岁
妈妈是一个非常勤劳的人,她总是为了我们忘记了自己的生活,从小时候开始,妈妈就对我们非常关心、细心,她把全部的爱都倾注在我们身上。每天早早起床为我们做早餐,风雨无阻地接送我们上下学,无论多么辛苦,她从来不曾抱怨一句。她总是那么默默无闻,可是妈妈也有年轻的时候,看着家里妈妈年轻时候的照片,我时不时都会有这样的感慨,年轻时候的妈妈到底是怎么样的呢?她喜欢在夕阳下骑着自行车穿过小镇的街道,也曾和朋友一起偷偷在日记本里写下关于梦想和爱情的憧憬。那时的她,也曾是个穿着碎花裙、爱唱歌、笑起来像阳光一样的少女。可后来,为了家庭、为了我们,她放下了年少的浪漫与自由,开始奔波在生活的柴米油盐之间。她不再有时间看喜...
假如我穿越到了妈妈的18岁
点赞
评论
收藏
分享
昨天 21:12
蚌埠坦克学院 嵌入式软件开发
为什么在面试时要进行反问?
在多数技术或非技术岗位的面试中,面试官通常会在面试接近尾声时问一句:“你有什么想问我的吗?”这不是一个礼貌性流程,也绝不是一个可有可无的环节。反问,是候选人向面试官展现成熟度、判断力与价值观契合度的重要机会。很多人因为不清楚“反问的意义”,选择敷衍了事或者放弃这个环节,从而错失了加分甚至自我筛选的关键阶段。本文将从三个维度解释,为什么在面试中要进行反问,并提供一些高质量的反问示例,帮助你提升面试表现和决策质量。一、反问是候选人展现思考深度的机会大多数候选人在面试中都在被动回答问题,反问则是你主动把控话语权的少数时刻。如果你能提出专业、有层次的问题,能有效传递以下信号:你对公司/岗位有深入了解;...
面试经验谈
点赞
评论
收藏
分享
04-15 12:59
武汉科技大学 C++
投了很多感觉没什么人要
是不是双非基本找不到工作
喜欢喜欢喜欢:
这是我见过最长最臭的简历
点赞
评论
收藏
分享
05-07 13:29
已编辑
门头沟学院 Java
26届暑期实习简历求大佬拷打
bg:双非一本至今 0 大厂面试,基本都被挂简历了,美团腾讯京东也不给面b站做完笔试一直没动静Boss 上找小厂倒是有人理我,能约到小厂面试。是哪里的问题呢要换个轮子项目吗
北斗导航Compass低仿版:
能不能先搞清楚优先级啊,怎么可能是项目问题,项目很重要吗?又没学历 又没实习大厂凭啥约面?那玩具项目 没应用在真实生产环境下的 就算做上天又有什么用?早点找个小公司实习 拿小公司实习去投大厂实习,这才是你现在该做的
投递美团等公司9个岗位
简历被挂麻了,求建议
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
后端实习什么算有产出
8.7W
2
...
25届游戏客户端开发求职总结
2.3W
3
...
广州25应届计算机 Java想转行
1.4W
4
...
悟已往之不谏,知来者之可追
1.1W
5
...
双一流本的春招结束 去送外卖了
9515
6
...
回望春招路~草草用如履薄冰带过
8517
7
...
太顺利的话,好像总是有意外……
7758
8
...
以Mentor视角,更喜欢有这些沟通技巧的实习生
6684
9
...
实习生都给我放开了大胆问
6480
10
...
腾讯云智一面面经
6287
创作者周榜
更多
正在热议
更多
#
我的求职总结
#
12420次浏览
225人参与
#
辞职之后最想做的一件事
#
8005次浏览
87人参与
#
毕业季,给职场新人一些建议
#
11739次浏览
218人参与
#
选offer应该考虑哪些因素
#
9946次浏览
135人参与
#
我的实习日记
#
2417746次浏览
25273人参与
#
工作后会跟朋友渐行渐远吗
#
20545次浏览
159人参与
#
你小时候最想从事什么职业
#
90159次浏览
1690人参与
#
你想留在一线还是回老家?
#
36376次浏览
439人参与
#
薪资爆料
#
102042次浏览
1039人参与
#
毕业后不工作的日子里我在做什么
#
167793次浏览
1484人参与
#
设计人如何选offer
#
108043次浏览
707人参与
#
生物制药/化工校招攻略
#
42652次浏览
282人参与
#
比亚迪求职进展汇总
#
703424次浏览
3060人参与
#
第一份工作应该只看薪资吗
#
136891次浏览
1438人参与
#
你们公司哪个部门最累?
#
14407次浏览
123人参与
#
你们的毕业论文什么进度了
#
1014106次浏览
9513人参与
#
秋招想进国企该如何准备
#
56689次浏览
363人参与
#
招聘要求与实际实习内容不符怎么办
#
98191次浏览
718人参与
#
工作中的卑微时刻
#
8790次浏览
54人参与
#
大学最后一个寒假,我想……
#
35488次浏览
454人参与
牛客网
牛客企业服务