【数据分析岗】大厂面经(三)之阿里巴巴
一、SQL题
面试真题1 :表说明:现有一张用户APP访问日志表(view_log),字段结构如下:
user_id,用户注册时生成的ID
page_name,页面名称
viewtime,访问时间
page_view_duration, 访问时长
▼ 问题描述:统计用户最后访问的页面信息,提取每日最后停留次数最多TOP10页面
▼ 解题思路:① 根据窗口函数计算每个用户最后访问的页面信息
② 根据第①中提取最后访问的页面,然后按照页面进行汇总③ 页面汇总后,再次调用窗口函数进行排序,提取TOP10页面信息
![]()
面试真题2 :表说明:现有一张用户APP访问日志表(view_log),表结构请参考面试真题1。▼ 问题描述:用户下单需要经历以下几个步骤,打开APP-》商品详情页-》订单填写页-》支付成功页。请统计每天该漏斗的转换情况。▼ 解题思路:
计算每个页面活跃的用户情况即可
![]()
面试真题3 :表说明:现有一张订单支付表(order_info),字段结构如下:
user_id,用户注册时生成的ID
orderid, 订单ID
goodsid,商品ID
paystatus,支付状态,退款,未支付,已支付
paytime,支付时间
order_amount,支付金额
goods_num, 购买的商品件数
注意:一个订单可能包含多个商品ID,该表的主键为:orderid+goodsid
▼ 问题描述:
用户下单后,第二次购买的时间间隔成为复购时间,请计算每日下单的用户平均复购时长?注意复购时长大于30天将直接记为流失用户,不参与复购时长计算,购买订单不包含未支付订单。▼ 解题思路:
该问题需要注意的地方是,仅需统计30天的复购行为,所以计算的复购时间间隔应小于30天。
![]()
二、机器学习&概率论
面试真题1:什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。▼ 解题思路:① 聚类分析可以简单的描述为--物以类聚,在数据挖掘、数据分析领域有非常广泛的应用。聚类分析属于非监督学习。举个简单的例子,如果把人和生物界其他动物放在一起比较,可以通过四肢、五官、肤色、毛发等特征,将人归为一类,鱼归于一类、鸟归为一类,这就是聚类。
② 常用的聚类算法有K-means,层次聚类,SOM聚类,FCM聚类
③ 下面重点描述一下层次聚类的原理和步骤
原理:通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。步骤:假设有 n 个待聚类的样本,对于层次聚类算法,它的步骤是:
将每个样本都视为一个聚类;
计算各个聚类之间的相似度;
寻找最近的两个聚类,将他们归为一类;
重复步骤二,步骤三;直到所有样本归为一类。
面试真题2:
如要预测下个月的淘宝销量情况,你将如何进行分析?
▼ 思路框架参考:① 收集数据:收集历史数据,汇总近几年每个月的销量。② 数据分析:观察数据分布结构。③ 选用模型:选取合适的模型进行预测,比如,如果数据是线性增长,那么选用线性模型。如果数据表现不仅存在线性增长,还存在季节性因素,那么选用更复杂的模型,比如,时间序列相关的模型。④ 效果评估:结合历史数据,评估模型预测的准确性。模型效果表现良好,那么可以结合模型给出下个月的淘宝销量,如果模型效果变现较差,返回第②步。
三、开放性问题
一些商家为了提高商品的曝光量和排名,常常会进行刷单冲销量买好评,作为平台如何识别刷单呢?▼ 思路参考:检测淘宝刷单可从以下角度出发,进行思考:① 流量方面:
面试真题1:② 成交方面:
一般来说,A商品在刷单之前搜索排名会比较靠后,刷单用户在购买A商品时,只点击查看该商品,甚至存在秒拍的情况。
用户下单前没有对比同个同款商品。
③ 物流方面:
流量访问的转化率异常,因为刷单比例较高,故访问了该商品且转换的订单数占比会很高,在数据上的表现即为转化率异常高。
商品成交量异常,刷单商品普遍在刷单之前成交量较低。故刷单后,商品成交量可能会出现暴增。
④ 买家方面:
一般来说,电商内部的物流订单号是唯一的,即不会重复,刷单商家为了节约成本,可能会重复利用同一个快递订单号。
同时如若刷单,商家所发快递物品可能非真实原物,且会虚假发货。可从商品重量、件数预估物流运费,物流轨迹+时间等方面进行甄别。
建立黑名单库,识别刷单账号
同一个手机设备,不同账号,购买同一商品。
对于同一个账号重复购买同一件商品。
同一个IP网络地址,不同的手机设备,购买同一个商品。
面试真题2:
某业务部门在上周结束了为期一周的大促,作为业务对口分析师,需要你对活动进行一次评估,你会从哪几个方面进行分析? ▼ 思路参考: 不管是微商、电商还是店商,有三大关键要点,分别是【人】【货】【场】三个重要的环节。大促分析也可以从这三个角度进行结构化的分析:
① 人(用户)
活跃度:活跃的用户数
转换率:下单的用户数、转换率
成交额:成交总额,人均购买金额,人均购买件数
留存率:大促结束后的留存情况以及后续的成交情况
② 货(商品)
曝光的商品数,如果存在大促商品池,那么可看看曝光的商品数占比
成交的商品数,统计有成交记录的商品数,及成交商品数占比
商品丰富度,从商品的结构、种类进行分析,不同种类的商品成交曝光情况
商品供应量,分析大促的供需关系,是否存在商品库存情况
商品价格,大促期间商品价格的优惠情况
③ 场(大促活动)
用户大促活动参与度,比如大促是否设置小游戏,如天猫盖楼游戏,可以分析游戏的参与度和完成度
漏斗转换,大促活动每一步的漏斗流失和转换情况,指导后续大促活动的设计优化
大促页面的活跃情况
面试真题3:
GMV提升20%怎么分析?▼ 思路参考:① 背景确认:20%提升是指AB实验结果还是日常数据监控类。如果是AB实验,确认实验设计的方案。如果是日常数据监控类,确认数据计算的业务场景。
② 口径确认:确认数据计算的逻辑。20%中涉及到的指标分别是什么。
③ 数据分析:确认绝对提升是多少,比如GMV提升20%,可能绝对提升量为2千。业务场景较小,波动较大。
④ 问题分类:确认该问题属于正常波动还是异常类数据问题。如果是异常类数据问题,请参考往期文章中关于异常问题分析方法。