数据分析之机器学习与数据挖掘高频面试题及答案
机器学习与数据挖掘-2
6.实习内容中:RFM模型和kmeans(猿辅导)
参考答案
RFM模型根据客户活跃程度和交易金额的贡献,进行客户价值细分的 一种方法。它能够识别优质客户;可以制定个性化的沟通和营销服务,为更多的营销决策提供有力支持;能够衡量客户价值和客户利润创收能力。
R(Recency)——最近一次交易时间间隔。
F(Frequency)——客户在最近一段时间内交易次数。
M(Monetray)——客户最近一段时间内交易金额。
Kmeans算法:
第一步:数据归一化、离群点处理后,随机选择k个聚类质心
第二步:所有数据点关联划分到离自己最近的质心,形成k个簇;
第三步:重新计算每个簇的质心;
重复第二步、第三步,直到簇不发生变化或达到最大迭代次数。
7.特征工程怎么做的,选择了哪些特征作为预测变量?为什么用RFM模型来构建特征变量?(字节跳动)
参考答案
特征工程包括:特征构建->特征提取->特征选择。
选择特征:用户行为特征、用户消费特征、用户画像特征
为什么RFM模型:因为我们没有太多的用户行为数据,能用的数据比较有限。但是有一定的成交数据。只要有成交数据,就能进行RFM的分析。其次,模型的分层可解释性强。其他很多算法模型、机器学习模型,往往通过聚类进行用户的分层,对于业务来讲,不是很好解释。但RFM模型分成的用户类别,是非常好理解的。
8.rfm模型介绍一下?(京东、作业帮)
参考答案
RFM模型根据客户活跃程度和交易金额的贡献,进行客户价值细分的 一种方法。它能够识别优质客户;可以制定个性化的沟通和营销服务,为更多的营销决策提供有力支持;能够衡量客户价值和客户利润创收能力。
R(Recency)——最近一次交易时间间隔。
F(Frequency)——客户在最近一段时间内交易次数。
M(Monetray)——客户最近一段时间内交易金额。
9.xgb原理(猿辅导)
参考答案
xgboost就是一堆CART树的集合,将每棵树的预测值加在一起得到最后的预测值。xgboost利用了损失函数二阶的导数信息,并且在目标函数之外加入了正则项,避免过拟合。
10.实习项目介绍,为什么用xgb(猿辅导)
参考答案
xgboosting在传统boosting的基础上,利用cpu的多线程,引入正则化项,控制了模型的复杂度。并且xgb可并行处理,并能对缺失值处理,还内置交叉验证。
答案解析
xgboost的优点
#学习路径#