首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
乌龟会飞啊
南京大学 数字IC前端设计
发布于江苏
关注
已关注
取消关注
@弓早早:
数据分析基础知识——机器学习(4)
1. 特征工程的步骤?①数据理解和探索:首先了解数据集的结构、特点和问题,进行数据可视化和统计分析,发现异常值和缺失值。②数据清洗:处理缺失值、异常值和噪声,以确保数据的质量。③特征提取:从原始数据中提取新的特征。这可以包括从文本中提取关键词,从日期中提取年份等。④特征转换:对特征进行变化,使其更适合模型的要求。常见的转换包括标准化(使特征具有零均值和单位方差)、归一化(将特征缩放到一定的范围)、对数变换等。⑤特征选择:选择最具有信息量的特征,以减少模型复杂性和提高泛化能力。这可以通过统计方法、模型的特征重要性评估来实现。⑥特征构建:基于领域知识或创造性的想法,构建新的特征。例如,将多个相关特征合并、创建交互特征等。⑦降维:对高维数据进行降维,以减少存储和计算开销,并防止维度灾难。常用的降维方法包括主成分分析和线性判别分析等。⑧特征重要性评估:对特征的重要性进行评估,可以帮助理解哪些特征对模型的预测最为关键。⑨特征交叉验证:在模型训练过程中,通过交叉验证来验证特征的效果,以确保模型在不同数据子集上的稳定性。⑩迭代优化:特征工程是一个迭代的过程,需要不断地尝试不同的特征组合和变换,评估模型性能,然后进行调整和优化。2. 特征工程中对分类变量和数值变量分别做处理?分类特征的处理方法:①独热编码(one-hot encoding):将分类变量转化为一组二进制特征。每个可能的类别都会被编码成一个单独的二进制特征,其中一个为1,其余为0。这样可以避免给不同类别赋予不正确的顺序或权重。②标签编码:如果分类变量有明显的序关系,可以将其转化为连续的整数编码。但要注意,这种编码可能会引入错误的关系,因此只适用于有序分类。③频率编码:使用每个类别在数据中出现的频率来代替原始的类别标签。这可以捕捉类别的分布信息。④目标编码:对于分类目标变量,使用目标类别的平均值或其他统计量来替代类别标签,可以帮助模型学习类别与目标之间的关系。数值变量的处理方法:①标准化(Standardization):对数值变量进行标准化,使其均值为0,标准差为1。这可以确保不同的数值特征具有相似的尺度,有助于梯度下降等优化算法的收敛。②归一化(Normalization):将数值变量缩放到一个固定的范围,通常是[0,1]。这对于某些模型和距离度量可能很有用。③对数变换(Log Transformation):当数值变量呈现偏态分布时,可以用用对数变换来减小偏度,使其更接近正态分布。④离散化(Discretization):将连续的数值变量转化为离散的区间,可以帮助模型捕捉非线性关系。常见的离散化方法有下面几个:(1)等宽离散化:将连续的数据范围划分成相等宽度的区间。这样得到的离散化后的数据在每个区间内具有相同的间隔。但是,这种方法可能会导致某些区间内的样本较少,造成信息损失。(2)等频离散化:将数据分为每个区间内包含近似相同数量的数据点的区间。这可以保持每个区间内数据的分布相对均匀,但可能导致某些区间内的值范围较大。(3)聚类离散化:使用聚类方法将连续的数据聚成若干簇,然后将每个簇看作一个离散的值。这种方法可以根据数据的分布情况更好地划分区间。(4)自定义阈值离散化:基于领域知识或问题的特点,选择特定的阈值来将数据划分为不同的区间。这可以帮助捕获数据中的关键信息。(5)卡方分箱:根据卡方检验的统计方法来划分数据,以保证每个区间内的数据分布在统计上是显著的。⑤特征衍生:基于数值变量可以创建新的特征,比如交叉特征、多项式特征等,以增加模型的表达能力。3. 特征工程中的可视化?分类特征的可视化方法:①计数柱状图:显示每个类别的样本计数,帮用户了解每个类别的分布情况。②饼图:适用于展示不同类别的相对比例,可以直观地看到每个类别在总体中的贡献。③堆叠柱状图:如果有多个分类特征,可以使用堆叠柱状图来显示不同类别的组合。④热力图:可以展示分类特征之间的相关性,尤其适用于有多个分类特征时。数值型特征的可视化方法:①直方图:显示数值型特征的分布情况,有助于了解数据的范围、偏度和峰度。②密度图:与直方图类似,但通过平滑的曲线展示数据分布。③箱线图:可以显示数值型特征的分位数、中位数、离群值等信息。4. 建立模型?常见的机器学习模型:①线性回归:是一种用于建立输入特征与连续输出变量之间的关系的监督学习模型。它假设输入特征与输出之间存在线性关系。常用于预测、回归分析,例如房价预测、销售预测等。优点:简单易懂,容易解释模型;训练速度快;适用于线性关系较强的问题。缺点:对非线性关系的建模效果有限;对异常值敏感。②逻辑回归:是一种解决二分类问题的监督学习模型。它通过将线性组合的结果映射到0到1之间的概率值,然后根据阈值进行分类。广泛用于分类,如垃圾邮件检测、客户流失预测等。优点:简单且高效;适用于二分类问题。缺点:对多类别分类问题需要扩展。对特征之间的复杂关系不敏感。③主成分分析:PCA是一种无监督学习技术,用于降低高维数据的维度,保留最重要的特征。它通过找到数据中的主要方差方向来实现降维。用于数据压缩、可视化、去噪以及特征选择。优点:降维效果显著,可以去除冗余信息;数据可视化和压缩;减少了计算复杂度。缺点:可能丢失部分信息;需要假设线性关系。④K近邻算法:是一种基于实例的无监督学习算法,用于分类和回归。它根据与新数据点最近的K个邻居的标签来进行预测。常用于图像识别、推荐系统、异常检测等等。优点:简单易实现;适用于各种数据分布。缺点:对大型数据集计算开销大;对特征的尺度和权重敏感;需要选择合适K值。⑤自编码器:一种神经网络架构,用于无监督学习和特征学习。它试图将输入数据压缩到低维表示,然后重建原始数据,以捕捉数据的关键特征。用于特征学习、图像去噪、数据降维等。优点:可用于无监督学习和特征学习;可用于数据去噪和降维。缺点:训练深度自编码器可能需要大量数据和计算资源;超参数可能比较复杂。⑥随机森林:是一种集成学习方法,通过组合多个决策树来提高预测的准确性和稳定性。每个决策树都是基于随机抽样的数据和特征构建的。用于分类和回归问题,具有很强的预测能力和鲁棒性。优点:具有较高的预测准确性;能够处理大量特征和数据;对决策树拟合有一定的缓解作用。缺点:难以解释模型;在某些问题上可能过于复杂。⑦梯度提升:一种集成学习方法,通过迭代训练多个决策树来提高模型性能。每次训练新的树都试图修正一棵树的错误。优点:高度灵活,适用于各种问题;可以处理不平衡问题。缺点:对异常值敏感;训练时间超长。⑧决策树:它的工作原理类似于人类在面临决策时所采用的决策过程,通过树形结构表示不同的决策路径。每个内部节点表示一个特征或属性的测试条件,每个叶节点表示一个类别标签或回归值。优点:可自动选择重要特征,并且不需要对数据进行过多的预处理,如归一化或标准化。缺点:不稳定性——数据的微小变化可能导致决策树结构的巨大变化,这使得决策树不够稳定;可能产生高度复杂的树——在某些情况下,决策树可能会无法达到其他复杂模型的性能;当类别的分布不平衡时,决策树可能偏向于那些具有更多样本的类别;可能产生过拟合问题——决策树容易在训练数据集上过拟合,尤其是在树的深度很大或叶节点的样本数很小的情况下。这可以通过剪枝等技术来缓解。5.机器学习模型优化算法有哪些?①网络搜索:是一种通过穷举搜索超参数组合的方法,以找到最佳组合。首先,定义一个超参数的范围和候选值列表,然后通过不同组合进行训练和验证,最后选择性能最佳的组合。②随机搜索:随机搜索与网格搜索类似,但是它随机选择超参数的组合进行训练和验证,而不是穷举所有组合。随机搜索通常比网格搜索更高效,尤其是超参数的数量很大时。③贝叶斯优化:是一种基于贝叶斯推断的优化方法,它构建了一个代理模型来估计目标函数的性能,并选择下一个候选点以最小化不确定性。贝叶斯优化通常比随机搜索和网格搜索更高效,特别适用于复杂的优化空间。④交叉验证:是一种评估模型性能的方法,通常与超参数调优结合使用。它将数据分成多个子集,进行多次训练和验证,以准确评估模型的泛化性能。⑤模型调整:对于决策树等模型,可以通过限制模型结构,比如剪枝来控制树的复杂度,防止过拟合。
点赞 3
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
昨天 14:23
西北大学 安卓
我用Notion+AI整理面经,2周从迷茫到拿3个offer
春招在即,无论是26届,还是即将找实习的27、28届。都会面临一个问题:去网上看了很多公司面经,面试时一个都想不起来。今天我教你用Notion建立面经管理系统,再配合AI做分析,让你从从容容,游刃有余。减少求职的压力。 1.在Notion中新建表格用来记录面试进度和刷题进展。如下图:这样可以清楚的展示你的面试进度以及你今天要复习什么,打开后面的面经链接就可以了。附上表格模板: 面经数据库(主表格) ├─ 基础信息 │ ├─ 公司 │ ├─ 岗位 │ └─ 面试日期 ├─ 技术考察 │ ├─ 高频题 │ ├─ 考察重点 │ └─ 难度评级(1-5星) └─ 我的准备 ├─ 准备状态 ├─ 复习次...
查看2道真题和解析
点赞
评论
收藏
分享
01-22 17:27
西安电子科技大学 Java
几年没面试,这次真的被打醒了!
我上一次认真准备面试,已经是三年前的事了。那时候我一直觉得,只要 Java 基础还在,项目经验还在,问题就不大。毕竟那么多年后端,不至于一出来就水土不服。直到真正开始面试,我才发现一个事实:我不是技术退步了,而是市场已经换了一套考法。第一轮面试,我就意识到“不对劲”前半段问题其实很熟:Java 基础并发、JVM、数据库、中间件分布式、微服务、Spring 体系我心里还在想:还好,没脱节。但很快,问题开始变了:如果这个系统让你重新设计,你会怎么做?你当时为什么不用另一种方案?在不确定需求下,你怎么判断技术取舍?开放性场景题明显多了。没有标准答案,面试官更关心的是你的思考过程,而不是结论本身。真正...
哈哈哈,你是老六:
所以要保持每个月都有面试,可以面着玩玩
查看12道真题和解析
点赞
评论
收藏
分享
01-27 08:38
已编辑
北京大学 Java
别卷了!AI承认切图还差得远,我直接躺平
“以前一听到‘AI要取代前端了’,我这颗切图仔的心就瑟瑟发抖,Figma开到凌晨三点,切个大屏还得被设计师追着改像素。现在好了,Grok亲口承认:AI切图还差得远,只能给我打杂端茶递水。我寻思着,那我还卷个锤子?直接把椅子调成躺平模式,左手可乐右手手机,figma挂着进度条假装在渲染,Slack消息已读不回。‘在改Bug呢领导,马上好’。AI你来,你行你上啊!切个有状态的交互组件试试?写个完美适配暗黑模式的Tailwind class试试?处理一下iOS Safari那坨屎一样的视口单位试试?来来来,轮到你给我打工了——先帮我把这个切图仔的周报润色得感天动地,再顺手把明天的PR review过...
飞屋一号:
给各ai拉个群,让他们给你打黑工
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
J人永远闲不下来于是去提前实习
2585
2
...
mentor视角下的优秀实习生
2390
3
...
拥抱AI,程序员的最后出路
2127
4
...
大厂提前实习对AI开发的新感悟
2017
5
...
牛客吐槽大会 | 有槽不吐,留着过年?吐完领现金红包,痛快!
1815
6
...
努力挣钱的意义具象化了
1806
7
...
真正会被取代的,是你心里面的幻觉
1621
8
...
去独角兽做龙头还是去大厂做凤尾
1550
9
...
我身材再曼妙,也没有我的工资好笑!
1501
10
...
马斯克最新炸裂采访,AI会带走一半工作岗位,普通人将何去何从?
1383
创作者周榜
更多
正在热议
更多
#
牛客吐槽大会
#
3208次浏览
69人参与
#
机械人你知道哪些单休企业
#
83121次浏览
415人参与
#
今年春招是金一银二嘛?
#
8762次浏览
119人参与
#
参加完秋招的机械人,还参加春招吗?
#
103763次浏览
686人参与
#
1月小结:你过的开心吗?
#
1979次浏览
52人参与
#
抛开难度不谈,你最想去哪家公司?
#
4753次浏览
118人参与
#
为什么有人零实习也能进大厂?
#
5393次浏览
132人参与
#
AI求职实录
#
4002次浏览
111人参与
#
AI时代的工作 VS 传统时代的工作,有哪些不同?
#
8589次浏览
207人参与
#
机械人春招想让哪家公司来捞你?
#
379320次浏览
3141人参与
#
当你问AI“你会取代我的工作吗”,它说_?
#
3903次浏览
141人参与
#
你的第一家实习公司是什么档次?
#
4431次浏览
75人参与
#
没关系,至少我的__很曼妙
#
3810次浏览
65人参与
#
赚钱的意义在这一刻具象化
#
4114次浏览
99人参与
#
你的landing期是如何度过的?
#
8942次浏览
174人参与
#
除了Java,最推荐学什么技术?
#
6126次浏览
150人参与
#
我发现了面试通关密码
#
1600125次浏览
19679人参与
#
一人一道大厂面试题
#
114124次浏览
1263人参与
#
你觉得什么岗位会被AI替代
#
36865次浏览
256人参与
#
你在职场上见过哪些“水货”同事
#
30772次浏览
168人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务