数据分析面试常见问题

1、sql: (1) 除了熟练掌握基本的select from where group by having,左右外内连接,union和union all,去重,if then else,case when end 还要熟练掌握各种聚合函数,如sum,max,count (2)开窗函数 (3)字符串处理函数 (4)索引 2、业务知识 (1) A/B测试+辛普森悖论 对照组实验组的选取;埋点的设置,尤其注意页面访问统计和用户浏览行为的相关指标;留存率的不同时段的分析;分流 (2) 指标异动分析 没有固定的答案,但要有一套自己的分析体系,重点是要划分好维度和内外部综合分析。 1.1 数据的周期性波动 数据的周期性波动是一种自然形态的波动,例如,公众号文章的阅读量周内普遍高于周末阅读量。 1.2 业务内部因素影响 通常情况下内部影响都是来源于业务的活动,例如,运营经常组织的拉新、促活、促销等活动通常会造成某一段时间内的活跃用户数、销售额等指标高于平时。 1.3 外部因素影响 除了业务内部行为造成的数据波动,当然还会有一些外部因素造成的数据波动,例如,天气、政策、竞对等各种因素。 1.4 数据传输问题 数据波动还可能受到数据传输的影响,可能某天某个调度脚本挂了而造成数据缺失,因而造成了数据异动。 (3) 指标体系搭建 一般会给一个场景,让你搭建指标体系去衡量最终的业务情况 (4)数据分析报告怎么写 (5)用户画像(属性,行为,需求偏好) 3、数据预处理&机器学习常用算法 (1) k-means、决策树、随机森林、逻辑回归、朴素贝叶斯、SVM、KNN、boosting、Bagging 原理、应用场景、优缺点 (2) 对异常值和缺失值的处理 (3) 数据倾斜和数据归一化的处理方法 (4) 评估模型的指标, 查准率,查全率,f-score,ROC曲线、AUC 4、统计学原理 (1)p值、显著性水平 (2)一类错误和二类错误 (3)大数定律、中心极限定理 (4)假设检验、方差分析 (5)概率场景题 5、python (1)数据结构:列表,元组,字典,集合 (2) pandas、numpy、matplotlib、xlwtopenpyxl

全部评论

相关推荐

头像
10-27 15:50
门头沟学院 Java
点赞 评论 收藏
分享
评论
点赞
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务