机器学习与数据挖掘题目解析

4.2.5 机器学习与数据挖掘题目解析

1.      K-means、 K-means 算法的优缺点。

【参考答案】

优点:当潜在的簇形状是凸面,簇与簇之间较明显,且簇大小相近时,结果较理想。对于处理大数据,该算法高效且伸缩性较好。

缺点:要事先确定k;对于初始簇中心敏感,常以局部最优结束,对孤立点敏感,不适于发现非凸的簇或大小差别大的簇。


2.      rfm模型介绍一下?

【参考答案】

RFM模型根据客户活跃程度和交易金额的贡献,进行客户价值细分的 一种方法。它能够识别优质客户;可以制定个性化的沟通和营销服务,为更多的营销决策提供有力支持;能够衡量客户价值和客户利润创收能力。

R(Recency——最近一次交易时间间隔。

F(Frequency——客户在最近一段时间内交易次数。

M(Monetray——客户最近一段时间内交易金额。


3.      怎么防止过拟合?

【参考答案】

1)     获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法

让机器学习或深度学习模型泛化能力更好的办法就是使用更多的数据进行训练。但是,在实践中,我们拥有的数据量是有限的。解决这个问题的一种方法就是创建“假数据”并添加到训练集中——数据集增强。通过增加训练集的额外副本来增加训练集的大小,进而改进模型的泛化能力。

2)     采用合适的模型(控制模型的复杂度)

过拟合主要是有两个原因造成的:数据太少+模型太复杂。所以,我们可以通过使用合适复杂度的模型来防止过拟合问题。

3)     降低特征的数量

对于一些特征工程而言,可以降低特征的数量——删除冗余特征,人工选择保留哪些特征。这种方法也可以解决过拟合问题

4)     结合多种模型

简而言之,训练多个模型,以每个模型的平均输出作为结果。比如baggingboosting,都能很好的解决过拟合。


【解题思路】

这道题主要考验过拟合的概念及如何防止过拟合,过拟合是指训练误差和测试误差之间的差距太大。就是说模型

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

如果你问:“什么时候你才真正觉得接近了秋招?” 那一定是:“收到牛客绿皮书那一刻” 连续六年, 整合各大名企秋招考题 只为做到校招届的【五年高考三年模拟】 20家大厂授权,本次公开 200页笔面试真题解析合集 4大互联网热门岗位 保姆级攻略—你的求职绿卡!

全部评论

相关推荐

每晚夜里独自颤抖:你cet6就cet6,cet4就cet4,你写个cet证书等是什么意思。专业技能快赶上项目行数,你做的这2个项目哪里能提现你有这么多技能呢
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务