首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
乌龟会飞啊
南京大学 数字IC前端设计
发布于江苏
关注
已关注
取消关注
@弓早早:
数据分析基础知识——机器学习(4)
1. 特征工程的步骤?①数据理解和探索:首先了解数据集的结构、特点和问题,进行数据可视化和统计分析,发现异常值和缺失值。②数据清洗:处理缺失值、异常值和噪声,以确保数据的质量。③特征提取:从原始数据中提取新的特征。这可以包括从文本中提取关键词,从日期中提取年份等。④特征转换:对特征进行变化,使其更适合模型的要求。常见的转换包括标准化(使特征具有零均值和单位方差)、归一化(将特征缩放到一定的范围)、对数变换等。⑤特征选择:选择最具有信息量的特征,以减少模型复杂性和提高泛化能力。这可以通过统计方法、模型的特征重要性评估来实现。⑥特征构建:基于领域知识或创造性的想法,构建新的特征。例如,将多个相关特征合并、创建交互特征等。⑦降维:对高维数据进行降维,以减少存储和计算开销,并防止维度灾难。常用的降维方法包括主成分分析和线性判别分析等。⑧特征重要性评估:对特征的重要性进行评估,可以帮助理解哪些特征对模型的预测最为关键。⑨特征交叉验证:在模型训练过程中,通过交叉验证来验证特征的效果,以确保模型在不同数据子集上的稳定性。⑩迭代优化:特征工程是一个迭代的过程,需要不断地尝试不同的特征组合和变换,评估模型性能,然后进行调整和优化。2. 特征工程中对分类变量和数值变量分别做处理?分类特征的处理方法:①独热编码(one-hot encoding):将分类变量转化为一组二进制特征。每个可能的类别都会被编码成一个单独的二进制特征,其中一个为1,其余为0。这样可以避免给不同类别赋予不正确的顺序或权重。②标签编码:如果分类变量有明显的序关系,可以将其转化为连续的整数编码。但要注意,这种编码可能会引入错误的关系,因此只适用于有序分类。③频率编码:使用每个类别在数据中出现的频率来代替原始的类别标签。这可以捕捉类别的分布信息。④目标编码:对于分类目标变量,使用目标类别的平均值或其他统计量来替代类别标签,可以帮助模型学习类别与目标之间的关系。数值变量的处理方法:①标准化(Standardization):对数值变量进行标准化,使其均值为0,标准差为1。这可以确保不同的数值特征具有相似的尺度,有助于梯度下降等优化算法的收敛。②归一化(Normalization):将数值变量缩放到一个固定的范围,通常是[0,1]。这对于某些模型和距离度量可能很有用。③对数变换(Log Transformation):当数值变量呈现偏态分布时,可以用用对数变换来减小偏度,使其更接近正态分布。④离散化(Discretization):将连续的数值变量转化为离散的区间,可以帮助模型捕捉非线性关系。常见的离散化方法有下面几个:(1)等宽离散化:将连续的数据范围划分成相等宽度的区间。这样得到的离散化后的数据在每个区间内具有相同的间隔。但是,这种方法可能会导致某些区间内的样本较少,造成信息损失。(2)等频离散化:将数据分为每个区间内包含近似相同数量的数据点的区间。这可以保持每个区间内数据的分布相对均匀,但可能导致某些区间内的值范围较大。(3)聚类离散化:使用聚类方法将连续的数据聚成若干簇,然后将每个簇看作一个离散的值。这种方法可以根据数据的分布情况更好地划分区间。(4)自定义阈值离散化:基于领域知识或问题的特点,选择特定的阈值来将数据划分为不同的区间。这可以帮助捕获数据中的关键信息。(5)卡方分箱:根据卡方检验的统计方法来划分数据,以保证每个区间内的数据分布在统计上是显著的。⑤特征衍生:基于数值变量可以创建新的特征,比如交叉特征、多项式特征等,以增加模型的表达能力。3. 特征工程中的可视化?分类特征的可视化方法:①计数柱状图:显示每个类别的样本计数,帮用户了解每个类别的分布情况。②饼图:适用于展示不同类别的相对比例,可以直观地看到每个类别在总体中的贡献。③堆叠柱状图:如果有多个分类特征,可以使用堆叠柱状图来显示不同类别的组合。④热力图:可以展示分类特征之间的相关性,尤其适用于有多个分类特征时。数值型特征的可视化方法:①直方图:显示数值型特征的分布情况,有助于了解数据的范围、偏度和峰度。②密度图:与直方图类似,但通过平滑的曲线展示数据分布。③箱线图:可以显示数值型特征的分位数、中位数、离群值等信息。4. 建立模型?常见的机器学习模型:①线性回归:是一种用于建立输入特征与连续输出变量之间的关系的监督学习模型。它假设输入特征与输出之间存在线性关系。常用于预测、回归分析,例如房价预测、销售预测等。优点:简单易懂,容易解释模型;训练速度快;适用于线性关系较强的问题。缺点:对非线性关系的建模效果有限;对异常值敏感。②逻辑回归:是一种解决二分类问题的监督学习模型。它通过将线性组合的结果映射到0到1之间的概率值,然后根据阈值进行分类。广泛用于分类,如垃圾邮件检测、客户流失预测等。优点:简单且高效;适用于二分类问题。缺点:对多类别分类问题需要扩展。对特征之间的复杂关系不敏感。③主成分分析:PCA是一种无监督学习技术,用于降低高维数据的维度,保留最重要的特征。它通过找到数据中的主要方差方向来实现降维。用于数据压缩、可视化、去噪以及特征选择。优点:降维效果显著,可以去除冗余信息;数据可视化和压缩;减少了计算复杂度。缺点:可能丢失部分信息;需要假设线性关系。④K近邻算法:是一种基于实例的无监督学习算法,用于分类和回归。它根据与新数据点最近的K个邻居的标签来进行预测。常用于图像识别、推荐系统、异常检测等等。优点:简单易实现;适用于各种数据分布。缺点:对大型数据集计算开销大;对特征的尺度和权重敏感;需要选择合适K值。⑤自编码器:一种神经网络架构,用于无监督学习和特征学习。它试图将输入数据压缩到低维表示,然后重建原始数据,以捕捉数据的关键特征。用于特征学习、图像去噪、数据降维等。优点:可用于无监督学习和特征学习;可用于数据去噪和降维。缺点:训练深度自编码器可能需要大量数据和计算资源;超参数可能比较复杂。⑥随机森林:是一种集成学习方法,通过组合多个决策树来提高预测的准确性和稳定性。每个决策树都是基于随机抽样的数据和特征构建的。用于分类和回归问题,具有很强的预测能力和鲁棒性。优点:具有较高的预测准确性;能够处理大量特征和数据;对决策树拟合有一定的缓解作用。缺点:难以解释模型;在某些问题上可能过于复杂。⑦梯度提升:一种集成学习方法,通过迭代训练多个决策树来提高模型性能。每次训练新的树都试图修正一棵树的错误。优点:高度灵活,适用于各种问题;可以处理不平衡问题。缺点:对异常值敏感;训练时间超长。⑧决策树:它的工作原理类似于人类在面临决策时所采用的决策过程,通过树形结构表示不同的决策路径。每个内部节点表示一个特征或属性的测试条件,每个叶节点表示一个类别标签或回归值。优点:可自动选择重要特征,并且不需要对数据进行过多的预处理,如归一化或标准化。缺点:不稳定性——数据的微小变化可能导致决策树结构的巨大变化,这使得决策树不够稳定;可能产生高度复杂的树——在某些情况下,决策树可能会无法达到其他复杂模型的性能;当类别的分布不平衡时,决策树可能偏向于那些具有更多样本的类别;可能产生过拟合问题——决策树容易在训练数据集上过拟合,尤其是在树的深度很大或叶节点的样本数很小的情况下。这可以通过剪枝等技术来缓解。5.机器学习模型优化算法有哪些?①网络搜索:是一种通过穷举搜索超参数组合的方法,以找到最佳组合。首先,定义一个超参数的范围和候选值列表,然后通过不同组合进行训练和验证,最后选择性能最佳的组合。②随机搜索:随机搜索与网格搜索类似,但是它随机选择超参数的组合进行训练和验证,而不是穷举所有组合。随机搜索通常比网格搜索更高效,尤其是超参数的数量很大时。③贝叶斯优化:是一种基于贝叶斯推断的优化方法,它构建了一个代理模型来估计目标函数的性能,并选择下一个候选点以最小化不确定性。贝叶斯优化通常比随机搜索和网格搜索更高效,特别适用于复杂的优化空间。④交叉验证:是一种评估模型性能的方法,通常与超参数调优结合使用。它将数据分成多个子集,进行多次训练和验证,以准确评估模型的泛化性能。⑤模型调整:对于决策树等模型,可以通过限制模型结构,比如剪枝来控制树的复杂度,防止过拟合。
点赞 3
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
01-22 13:33
广东敦和律师事务所_管理部_高级人力资源经理
HR约你面试,句句话都有目的!
还有3周就要过年了,最近招聘工作放缓了,重心放在年终总结、年终考核、年会等方面了。早上在地铁上,突然意识到,我每次电话联系人选,貌似句句都是有目的的!我电话联系人选,寒暄完毕后一般会聊以下内容,看看你和HR聊过这些话题没?这些话题可都是有讲究的哦:1. 请问你目前是在职还是已经离职?这个问题是为了了解你的在职状态,方便HR判断你的到岗时间。如果你在职,意味着如果录用你,可能得1个月后你才能到岗;如果用人部门着急要人,招聘你的风险可能比较大。2. 你目前住在哪里?这个问题是为了了解你家离公司有多远,住得远的话,你选择我们公司的意愿可能会降低。3. 你目前薪资多少?换工作后期望薪资多少?这个问题是...
点赞
评论
收藏
分享
01-22 12:40
滴滴_运维开发工程师(准入职员工)
图拉斯内推,图拉斯内推码
ai面总结:AI调教的很好,问的问题很有意思,整场面试不会有很大的压迫感,追问大多是根据你的回答提问。总时长:35分钟Q1:自我介绍,重点介绍一下个人背景和大学期间的主要经历。Q2:你对于在一家公司长期发展有什么看法?你认为哪几点因素会让你在一家公司长期工作?(有追问)Q3:你取得过的最大成就是什么?过程中最大的难点是什么?你是如何突破的?最终的结果怎么样?(有追问2个)Q4:请描述一个过往遇到的最有压力困难或最具挑战的一个场景,你是如何解决的?对你有什么影响?(有追问)Q5:依你的看法,请描述一个你近期完成的项目任务,如果重来一次,你会做哪些不同的事情来提升结果?(有追问2个)Q6:电商运营...
点赞
评论
收藏
分享
2025-12-02 18:49
唐山学院 机械设计/制造
听劝!求大佬指点一下
本人二本机械设计制造及其自动化专业,投了3000多份简历,面试到一个国企,中国化学工程第四建筑工程有限公司,安装技术岗。大家有了解的吗?
搞机墨镜猫:
参考一下其他人简历吧, 把项目放最上面,没有项目就展开写实习,实习项目具体做了啥,现在很空 奖项写含金量高的,还有校园经历也是,不是运营岗基本上可以都删了
点赞
评论
收藏
分享
昨天 22:47
360集团_运维开发工程师(准入职员工)
禾赛科技内推,禾赛科技内推码
禾赛科技软件测试面经全程一个小时左右,需要写SQL和代码- 自我介绍- 项目提问- 项目里面的好友列表咋做数据库设计的- TCP四次挥手- python基本数据结构- 列表和数组的区别- 写SQL(用到分组、排序、聚合函数)- 写代码(输入一个数,各个位上两两交换位置,输出最大的数)全球激光雷达Top禾赛科技26届校招【企业介绍】全球领先的激光雷达研发与制造企业,全球激光雷达市占率No.1,美国纳斯达克上市。【开放岗位】商务类、产品类、项目管理类、销售类、系统类、芯片类、光学类、机械类、电子类、软件类、算法类、测试类、制造类【面向人群】毕业时间:2024.7-2025.12【工作地点】上海、杭...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
J人永远闲不下来于是去提前实习
2554
2
...
大厂提前实习对AI开发的新感悟
2325
3
...
mentor视角下的优秀实习生
2284
4
...
拥抱AI,程序员的最后出路
2177
5
...
牛客吐槽大会 | 有槽不吐,留着过年?吐完领现金红包,痛快!
2109
6
...
真正会被取代的,是你心里面的幻觉
1930
7
...
努力挣钱的意义具象化了
1717
8
...
去独角兽做龙头还是去大厂做凤尾
1585
9
...
马斯克最新炸裂采访,AI会带走一半工作岗位,普通人将何去何从?
1574
10
...
我身材再曼妙,也没有我的工资好笑!
1428
创作者周榜
更多
正在热议
更多
#
牛客吐槽大会
#
3370次浏览
69人参与
#
机械人你知道哪些单休企业
#
83149次浏览
415人参与
#
今年春招是金一银二嘛?
#
8940次浏览
119人参与
#
参加完秋招的机械人,还参加春招吗?
#
103807次浏览
686人参与
#
1月小结:你过的开心吗?
#
2090次浏览
53人参与
#
抛开难度不谈,你最想去哪家公司?
#
4907次浏览
118人参与
#
为什么有人零实习也能进大厂?
#
5545次浏览
132人参与
#
AI求职实录
#
4123次浏览
112人参与
#
AI时代的工作 VS 传统时代的工作,有哪些不同?
#
8853次浏览
207人参与
#
机械人春招想让哪家公司来捞你?
#
379376次浏览
3141人参与
#
当你问AI“你会取代我的工作吗”,它说_?
#
4032次浏览
141人参与
#
你的第一家实习公司是什么档次?
#
4538次浏览
75人参与
#
没关系,至少我的__很曼妙
#
3880次浏览
65人参与
#
赚钱的意义在这一刻具象化
#
4248次浏览
99人参与
#
你的landing期是如何度过的?
#
9098次浏览
176人参与
#
除了Java,最推荐学什么技术?
#
6275次浏览
151人参与
#
我发现了面试通关密码
#
1600291次浏览
19679人参与
#
一人一道大厂面试题
#
114198次浏览
1263人参与
#
你觉得什么岗位会被AI替代
#
36952次浏览
256人参与
#
你在职场上见过哪些“水货”同事
#
30850次浏览
168人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务