2022春招数据分析求职手册(全)


说明:本手册为高度提炼的2022春招重点和预测。
除此之外,我们还希望为大家提供最新的实时内容,真正做到帮助大家一站式求职,具体查看方式也会在手册中有所体现。

手册目录




第一章 2022春招全方位预测与解读,做好求职规划

1.1 春招的重要性&春招面向人群

面向人群:
春招整体上会分成两部分:
  • 针对22届毕业后正式工作的招聘
  • 针对23届暑期实习的招聘
春招的重要性:
  • 对于22届同学,此次春招是作为应届生最后的校招机会了,失去应届生身份走社招进大厂难度会更大;
  • 对于23届同学,此次春招是优先其他同学提前上岸的机会,甚至可以直接拿到正式offer,大大提升求职竞争力。
所以不管是针对哪一届的同学,只要你参加春招,都是至关重要的!

1.2 2022年各公司春招时间表

今年春节比较早,再加上各大企业为了抢人,导致今年的春招已经陆续开始了。(目前已有近100家公司开始了春招

阿里、华为快手、顺丰、蔚来汽车等公司已经开始!

如果你也有如下困惑:
  • 不同公司开始春招时间不固定,需要一家一家关注,费时费力
  • 每一家都要重新填一份简历,耗时久且无意义
  • 为解决同学求职时需要到处关注各家招聘信息的困扰

因为是实时更新的,为方便大家查看,牛客为大家提供了实时更新的校招日程,无需自己关注和整理不同公司春招开始时间,一一解决如上困扰。


第二章 帮你笔试通关,进入面试环节

2.1 数据分析师笔试题型讲解

技术类岗位笔试题型一般为选择题、编程题、问答题。大多数公司的笔试题为选择题+编程题或者只有编程题,少数会有问答题。其中选择题一般是20-40分,编程题一般是60-80分甚至更高。

2.2 数据分析师笔试考点

1、选择题考察知识点

一级技能

二级技能

三级技能

数学

概率论与数理统计

条件概率,概率密度,概率分布,期望,参数估计,古典概型,信息图形化,总体和样本估计,置信区间,假设检验,相关与回归,显著性检验,模型构建,试验设计

数据库

SQL

编程语言

Python

Python基础,Python数据类型,Python函数,装饰器和闭包,控制流程,Python面向对象,Python网络编程,协程,并发,元编程,类元编程

Java

Java基础语法,Java面向对象,Java基础类库,Java异常处理,Java集合,Java泛型,Java IO,Java多线程,Java网络编程,Java注解,类反射,JVM

C语言

C基础语法,C运算符,C流程控制,C函数,C复合类型,C文件输入输出,C预处理器和C库

C++

C++基础语法,C++复合类型,C++函数,C++面向对象,C++模板,STL,友元,C++异常,IO,C++新特性

机器学习

机器学习基础

线性模型,决策树,神经网络,支持向量机,贝叶斯分类器,集成学习,聚类,降维与度量学习,特征选择,计算学习,半监督学习,模型评估与选择,强化学习

深度学习基础

感知机,前馈神经网络,反向传播法,卷积神经网络,循环神经网络,图神经网络,递归网络,网络优化与正则化

数据挖掘

数据预处理,数据仓库与联机分析处理,数据立方体技术,数据挖掘模型,关联和相关性,分类,聚类分析,离群点检测

数据分析

数据思维

常见业务指标,指标体系和报表,指标的选择,分析方法,用数据分析解决问题

Python分析库

Numpy,pandas,matplotlib,seaborn,scikit-learn,bokeh,pyecharts,pasty,statmodels

Tableau

Tableau基础,数据库连接与管理,Tebleau可视化,高级数据操作,统计分析,分析图标整合,成果共享,Tableau Server

Power BI

Power BI架构,Power Query,输出处理,M函数,文本处理,批量汇总,数据建模,数据可视化,交互功能,Power BI报表设计

大数据

Hadoop

Hadoop基础知识,HDFS,MapReduce,YARN

Spark

Spark基础知识,Spark Core,Spark SQL,Spark Streaming

数据结构与算法

数据结构

数组,栈,堆,树,图论,字符串,并查集 ,单调栈,字典树,线段树,树状数组,链表,二叉树,队列

基础算法

模拟,枚举,贪心,双指针,构造,分治,哈希,高精度,复杂度,位运算,快速幂,矩阵快速幂,排序

搜索

dfs,最短路,二分,记忆化搜索

动态规划

前缀和,差分,线性dp,二维dp,多维dp,背包,区间dp,树形dp,数位dp,状压dp


*红色是最高频考点,黄色是次高频,白色是其他

2、编程题考察知识点

一般来讲,笔试编程题考察知识点是:dfs、字符串、背包、贪心、并查集、模拟、数学、线性dp、排序、哈希、构造、前缀和等等,有的题目会同时考察2个甚至更多知识点。

3、问答题考察知识点

一般很少有公司会考察问答题,因为企业不是很好判卷,即使考的话也是和选择题一样的知识点范围,大家针对性合理准备即可。

2.3 数据分析师笔试真题

以下均为各个企业真实笔试中的考题,每道题均附上了解析,本版块末位也放上了更多实时更新的题目和解析的直接免费领取。

1、选择题

真题1
在一次大选中候选人A和B进行竞选。候选人A的抽样支持率为60%,95%的置信区间为(50% - 70%),请问在最终大选中候选人A落选的概率与下列哪个最为接近
A. 40%
B. 60%
C. 5%
D. 2.5%
答案:D
解析:
这个题目不要被绕晕。
首先确定:A落选的情况为:支持率小于50%
而A有95%的概率支持率在50%-70%
所以:A的支持率小于50%和大于70%的概率为5%
因为左右两边置信概率相等,得出小于50%的概率为2.5%

真题2
为某高校某门考试的题目创建一个视图,要求可以便于查询每题对应出题老师及审题老师,已有set_teacher表(教师编号s_tid,教师姓名tname,所属院系tdepartment),view_teacher表(教师编号v_tid,教师姓名tname,所属院系tdepartment),question表(题目编号qid,题目类型qtype,题目内容qcontent,答案qanswer,出题教师编号s_tid,审题教师编号v_tid),下列语句错误的是()

A. CREATE VIEW view_question (qid,s_tname,r_tname)
AS SELECT question.qid, set_teacher.tname, view_teacher.tname
FROM question, set_teacher, view_teacher
WHERE question.s_tid=set_teacher.s_tid
AND question.v_tid=view_teacher.v_tid;

B. CREATE VIEW view_question (qid,s_tname,r_tname)
AS SELECT question.qid, set_teacher.tname, view_teacher.tname
FROM question, set_teacher, view_teacher
WHERE (SELECT qid,s_tid,v_tid FROM question
WHERE question.s_tid=set_teacher.s_tid
AND question.v_tid=view_teacher.v_tid);

C. CREATE VIEW view_question (qcontent,s_tname,r_tname)
AS SELECT question.qcontent, set_teacher.tname, view_teacher.tname
FROM question, set_teacher, view_teacher
WHERE question.s_tid=set_teacher.s_tid
AND question.v_tid=view_teacher.v_tid;

D. SELECT question.qid, set_teacher.tname, view_teacher.tname,
set_teacher.s_tid, view_teacher.v_tid
FROM question, set_teacher, view_teacher AS question_2
WHERE question.s_tid=set_teacher.s_tid
AND question.v_tid=view_teacher.v_tid;
CREATE VIEW view_question (qid,s_tname,r_tname)
AS SELECT question.qid, set_teacher.tname, view_teacher.tname
FROM question_2;

答案:B
解析:
ABC选项都是在多个表上创建视图,其中B选项的内层查询选取的表缺少,因此有未知列,错误;D选项是将所需三表建立内连接,形成临时表,再在单表上建立视图。

真题3
Mysql中表student_table(id,name,birth,sex),插入如下记录:
('1001' , '' , '2000-01-01' , '男');
('1002' , null , '2000-12-21' , '男');
('1003' , NULL , '2000-05-20' , '男');
('1004' , '张三' , '2000-08-06' , '男');
('1005' , '张三' , '2001-12-01' , '女');
('1006' , '李四' , '2001-12-02' , '女');
查询男生女生存在的相同姓名,比如'张三' ,正确的是()?
A. select distinct t1.name from
(select * from student_table where sex = '女')t1
inner join
(select * from student_table where sex = '男') t2
on t1.name = t2.name ;

B. select distinct t1.name from
(select * from student_table where sex = '女')t1
left join
(select * from student_table where sex = '男') t2
on t1.name = t2.name ;

C. select distinct t1.name from
(select * from student_table where sex = '女')t1
full join
(select * from student_table where sex = '男') t2
on t1.name = t2.name ;

D. select distinct t1.name from
(select * from student_table where sex = '女')t1
right join
(select * from student_table where sex = '男') t2
on t1.name = t2.name ;

答案:A
解析:
B会把'李四'也查询出来,此时是以t1为主表;
C执行报错,Mysql当前不支持full join;
D结果含有NULL,主表是t2存在NULL,左表t1对应字段值只能是NULL;
所以A正确,用inner join关联是最正确的。

2、编程题

真题1
每篇文章同一时刻最大在看人数
【题目描述】
用户行为日志表tb_user_log
(uid-用户ID, artical_id-文章ID, in_time-进入时间, out_time-离开时间, sign_in-是否签到)
【场景逻辑说明】
artical_id-文章ID代表用户浏览的文章的ID,artical_id-文章ID为0表示用户在非文章内容页(比如App内的列表页、活动页等)。
【问题】
统计每篇文章同一时刻最大在看人数,如果同一时刻有进入也有离开时,先记录用户数增加再记录减少,结果按最大人数降序。
【输出示例】
示例数据的输出结果如下
解释:10点0分10秒时,有3个用户正在浏览文章9001;11点01分0秒时,有2个用户正在浏览文章9002。
【示例1】
输入:DROP TABLE IF EXISTS tb_user_log;
CREATE TABLE tb_user_log (
id INT PRIMARY KEY AUTO_INCREMENT COMMENT '自增ID',
uid INT NOT NULL COMMENT '用户ID',
artical_id INT NOT NULL COMMENT '视频ID',
in_time datetime COMMENT '进入时间',
out_time datetime COMMENT '离开时间',
sign_in TINYINT DEFAULT 0 COMMENT '是否签到'
) CHARACTER SET utf8 COLLATE utf8_bin;
INSERT INTO tb_user_log(uid, artical_id, in_time, out_time, sign_in) VALUES
(101, 9001, '2021-11-01 10:00:00', '2021-11-01 10:00:11', 0),
(102, 9001, '2021-11-01 10:00:09', '2021-11-01 10:00:38', 0),
(103, 9001, '2021-11-01 10:00:28', '2021-11-01 10:00:58', 0),
(104, 9002, '2021-11-01 11:00:45', '2021-11-01 11:01:11', 0),
(105, 9001, '2021-11-01 10:00:51', '2021-11-01 10:00:59', 0),
(106, 9002, '2021-11-01 11:00:55', '2021-11-01 11:01:24', 0),
(107, 9001, '2021-11-01 10:00:01', '2021-11-01 10:01:50', 0);}
输出:9001|3
9002|2
【题解】
本题需求不难理解,难点在于如何计算瞬时的最大计数(在看人数)
首先,我们自然会想到常见的编码+联立。在此对原表in_time和out_time进行编码,in为观看人数+1, out为观看人数-1,进行两次SELECT联立,并按artical_id升序,时间戳升序:
代码:
SELECT
artical_id, in_time dt, 1 diff
FROM tb_user_log
WHERE artical_id != 0
UNION ALL
SELECT
artical_id, out_time dt, -1 diff
FROM tb_user_log
WHERE artical_id != 0
ORDER BY 1,2
结果:
9001|2021-11-01 10:00:00|1
9001|2021-11-01 10:00:01|1
9001|2021-11-01 10:00:09|1
9001|2021-11-01 10:00:11|-1
9001|2021-11-01 10:00:28|1
9001|2021-11-01 10:00:38|-1
9001|2021-11-01 10:00:51|1
9001|2021-11-01 10:00:58|-1
9001|2021-11-01 10:00:59|-1
9001|2021-11-01 10:01:50|-1
9002|2021-11-01 11:00:45|1
9002|2021-11-01 11:00:55|1
9002|2021-11-01 11:01:11|-1
9002|2021-11-01 11:01:24|-1
意义:
某篇文章artical_id,在给定的时间戳dt的,瞬时观看人数变化diff
到这一步,本题的解法基本就明朗了:
我们考虑使用SUM窗口函数,按文章id维度,统计按时间戳升序的观看人数变化情况:
代码:
SELECT
artical_id,
dt,
SUM(diff) OVER(PARTITION BY artical_id ORDER BY dt) instant_viewer_cnt
FROM (
SELECT
artical_id, in_time dt, 1 diff
FROM tb_user_log
WHERE artical_id != 0
UNION ALL
SELECT
artical_id, out_time dt, -1 diff
FROM tb_user_log
WHERE artical_id != 0) t1
结果:
9001|2021-11-01 10:00:00|1
9001|2021-11-01 10:00:01|2
9001|2021-11-01 10:00:09|3
9001|2021-11-01 10:00:11|2
9001|2021-11-01 10:00:28|3
9001|2021-11-01 10:00:38|2
9001|2021-11-01 10:00:51|3
9001|2021-11-01 10:00:58|2
9001|2021-11-01 10:00:59|1
9001|2021-11-01 10:01:50|0
9002|2021-11-01 11:00:45|1
9002|2021-11-01 11:00:55|2
9002|2021-11-01 11:01:11|1
9002|2021-11-01 11:01:24|0
意义:
某篇文章artical_id,在给定的时间戳dt的,瞬时累计观看人数instant_viewer_cnt
然后到了本题的坑点。
题目要求在瞬时统计时遵循【先进后出】:如果同一时刻有进入也有离开时,先记录用户数增加,再记录减少。
因此在ORDER BY层面,在遵循dt升序的同时,还要遵循先+1,再-1的原则,即diff DESC:
SUM(diff) OVER(PARTITION BY artical_id ORDER BY dt, diff DESC)
步骤拆解:
1、对原表编码并联立;
2、按artical_id维度,dt升序 ,diff降序,对diff进行SUM开窗统计,得到每个artical_id的瞬时观看人数instant_viewer_cnt;
3、最外层SELECT按artical_id聚合,通过MAX(instant_viewer_cnt)取出瞬时观看最大值max_uv,并排序。
【完整代码如下】
SELECT
artical_id,
MAX(instant_viewer_cnt) max_uv
FROM (
SELECT
artical_id,
SUM(diff) OVER(PARTITION BY artical_id ORDER BY dt, diff DESC) instant_viewer_cnt
FROM (
SELECT
artical_id, in_time dt, 1 diff
FROM tb_user_log
WHERE artical_id != 0
UNION ALL
SELECT
artical_id, out_time dt, -1 diff
FROM tb_user_log
WHERE artical_id != 0) t1
) t2
GROUP BY 1
ORDER BY 2 DESC

真题2
某宝店铺的SPU数量
【题目描述】
11月结束后,小牛同学需要对其在某宝的网店就11月份用户交易情况和产品情况进行分析以更好的经营小店。
已知产品情况表product_tb如下(其中,item_id指某款号的具体货号,style_id指款号,tag_price表示标签价格,inventory指库存量):
请你统计每款的SPU(货号)数量,并按SPU数量降序排序,以上例子的输出结果如下:

【示例1】

drop table if exists product_tb;
CREATE TABLE product_tb(
item_id char(10) NOT NULL,
style_id char(10) NOT NULL,
tag_price int(10) NOT NULL,
inventory int(10) NOT NULL
);
INSERT INTO product_tb VALUES('A001', 'A', 100, 20);
INSERT INTO product_tb VALUES('A002', 'A', 120, 30);
INSERT INTO product_tb VALUES('A003', 'A', 200, 15);
INSERT INTO product_tb VALUES('B001', 'B', 130, 18);
INSERT INTO product_tb VALUES('B002', 'B', 150, 22);
INSERT INTO product_tb VALUES('B003', 'B', 125, 10);
INSERT INTO product_tb VALUES('B004', 'B', 155, 12);
INSERT INTO product_tb VALUES('C001', 'C', 260, 25);
INSERT INTO product_tb VALUES('C002', 'C', 280, 18);
【参考代码】
select
style_id,
count(distinct item_id) SPU_num
from product_tb
group by style_id
order by SPU_num desc

2.4 笔试通关攻略

多在牛客刷题
  • 牛客上有专属真实考试环境的ACM模式的题目练习
  • 牛客更懂企业招聘要求,像华为腾讯这样的大厂用的都是牛客网考试系统,多刷题,秋招考原题的概率很大,
因为不同企业每年考察的趋势都是在实时变化的,且笔试会中有占比较大的ACM模式编程题,所以更多题目不在这里过多展示,为大家提供线上版本,点击下方对应链接即可领取实时更新的2022年春招考点以及笔试真题(带题目讲解)

专项练习:

公司真题:

华为机试/剑指offer/名企编程真题等经典题单:
华为机试在线编程练习题库: https://www.nowcoder.com/exam/oj/ta?tpId=37


第三章 帮你面试通关,拿到offer

3.1 面试八股文

1、面试八股文考点

一级考点
二级考点
数理基础
逻辑推理,随机变量,中心极限定理,概率计算
SQL
数据分析
数据分析,业务指标,ABtest,业务与用户分析,行业分析
机器学习与数据挖掘
Python
费米估算
数据分析工具

2、八股文题目

数理基础

逻辑推理
1)乙两地相距S,火车A以20的速度从甲开向乙,火车B以15的速度从乙开向甲,A上有一只小鸟以30的速度和A同时出发,小鸟碰到另一辆火车的时候立刻调头,问:火车AB相遇的时候,小鸟飞了多少距离?
随机变量
1)面对大方差如何解决
2)数据分析指标的阈值怎么确定
3)如何不用自带函数统计一段话每个单词出现的次数
4)SQL中如何利用replace函数统计给定重复字段在字符串中的出现次数
5)常见的统计分析方法有哪些
6)统计学的基本方法论,也就是拿到数据怎么分析
7)如何用统计学的角度看待新冠疫情
8)简述方差分析概念
9)商城每天的人流量属于什么分布?泊松分布和二项分布的关系?
10)二项分布趋近泊松分布的n和p大概是多少,这个值怎么来的?
11)简单说一下各种分布之间的关系?
12)简述逻辑回归概念
13)t分布是有什么分布构成的,表达式是什么
14)如何向小朋友们解释正态分布
15)100个人,初始各有100块,每人每分钟随机给别人1块钱,问最后的分布
随机误差的分布
16)简单说一下两类错误
17)简单说一下说说置信区间、置信度
18)协方差是啥,怎么判断协方差正负
29)说一下辛普森悖论的例子
20)相关系数
21)如何估计样本量
22)辛普森悖论,以及如何避免这种现象
23)作为出行领域的小玩家,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,24)还是订单分布比较发散。
25)说一下t检验,z检验和卡方检验的原理,及其适用条件。
26)ARIMA模型原理
27)几何平均是什么
28)协方差的定义?
中心极限定理
1)说一下中心极限定理
概率计算
1)贝叶斯定理是什么?
2)对朴素贝叶斯的理解?
3)两个人相约在8点到9点时间段见面,彼此等15分钟,见不到人就走。两人在8点至9点任一时刻到达目的地,求两人能见面的概率
4)抛硬币直到连续两次出现正面的概率,求扔的期望次数
5)50个红球50个白球放入两个黑箱,怎么分配摸到红球概率最大
6)概率几大学派
7)一个班20个人,至少两个人同一天生日的概率。
8)次品率千分之一,取1000次,得到2个次品率的概率
9)某个概率分布的期望方差。
10)100次掷硬币60次朝上,可以认为正反概率相等吗?
11)条件概率的概念
12)概率和似然是什么
13)两个孩子,已知一孩子是男孩,另一孩子是男孩的概率。
14)说一下显著性水平
15)简单讲一下三门问题
16)请你说说假设检验是什么
17)AB实验实例,假设检验的应用
18)假设检验的原理和步骤
19)参数估计和假设检验分别是什么?区别在哪里?
20)实习内容中:假设、验证涉及的假设检验、a/btest
21)假设检验的基本原理
22)假设检验的显著性水平
23)假设检验相关的第一类错误、第二类错误,怎么降低第一类错误,如何同时降低第一类和第二类错误
24)如何判断实验组和对照组的某个指标是否有显著差异?
25)显著性水平、置信区间、假设检验

SQL

1)讲一下Union和Join的区别
2)Sql题目,求连续访问ID
3)SQL窗口函数并举例
4)SQL里面的like的用法
5)SQL留存问题:现场写一道SQL:给定用户表,求用户的次日留存率
6)求单日留存及一个月的每日留存
7)sql如何进行优化
8)是否会SQL、Python、R等分析工具
9)count()和count(distinct)用法
10)SQL常用函数
11)提取一个班级第一名的全部信息
12)sql怎么样/SQL掌握运用的程度?/问对sql的掌握程度。/学过sql吗?
13)你说在销售运营这个岗位上会涉及到一些报表的出具,包括日报/月报等等这些工作,用到的工具除了EXCEL,像SQL这些用得到吗?
14)给了用户安装的应用列表和对应分类,取出每个用户安装类型最多的应用top5(SQL题,一道,给了用户安装的应用列表和对应分类,第一问相对简单)
15)选取订单量前1000的商品,并且选出每个商品订单量排名前100的销售渠道
16)找出每个用户得分最高的视频,得分相同时按照视频id选择最大的(原:找出每个用户哪一类型得分最高的视频,视频相同时按照视频id选择最大的)
17)找出开播三分钟内无人进入的直播房间号
18)sql window function/ full join
19)找出个分类下粉丝数提升(跟昨天)最多的20个id
20)SQL窗口函数、如何去重
21)给定用户表,求用户的次日留存率
22)SQL行列转换/SQL代码题:行、列转换

数据分析

数据分析
1)说一说数据分析流程
2)游戏内数据分析涉猎的少,如何证明自己有能力胜任?
3)之前的经历中单品数据分析的经验丰富,但缺少平台分析经验,你认为字节小游戏平台分析4)需要涉及哪些指标?哪个是最重要的?为什么?
5)你对数据分析的认知是什么,那你是如何学习数据分析的?(除上课外)
6)数据分析常用软件
7)你觉得数据分析应该具备的能力是什么
8)以往经历中,你是怎么做数据分析报表
9)数据分析必备的技能
10)你觉得数据分析师必备的素质;结合数据分析师的素质,给自己打个分,讲述扣分的理由
11)有哪些数据分析经历
12)对做数据分析做了哪些准备
13)说一下SVM
14)说一个无监督学习算法,阐述原理,优缺点,实际应用点
15)从数据分析角度,推荐模块怎么用指标衡量?
16)为什么想做数据分析?(从数据分析相关专业和不相关专业给出两种答案)
17)根据数据分析去调整高峰期打车供需问题
18)认为数据挖掘和数据分析有什么不同
19)说下数据分析常用的算法
20)原专业与数据分析的哪些内容相关
21)假设我是美团的数据分析师,会构建怎样的指标体系。
22)认为自己数据分析能力如何?一般会从什么角度进行数据分析?
23)谈一下瀑布流和双列点选两种形式,你能从哪些角度进行数据分析以为业务方提供指导建议呢?
24)从数据分析怎么去挖掘出你说的客户相似性?
25)什么样的人适合做数据分析
26)数据分析日常工作内容以及工具时间占比
27)金融以及中小微方向数据分析的想法
28)对数据分析的看法,你怎么理解数据分析师这个职业
29)自己想做的数据分析是什么类型之类的。
30)那你知不知道逻辑是数据分析师最重要的技能,你觉得它会是你日后工作致命的缺陷吗
31)介绍一个数据分析项目
32)想用数据分析app哪些功能
33)说一说,数据分析师和高级数据分析师的区别
34)数据分析的时候最基础的思路是什么?
35)对数据分析不同分支的岗位理解
36)过往课程比较偏金融,为什么想做电商的数据分析?
业务指标
1)怎么制定某某具体业务的目标?(举例说明)
2)业务题,怎么分析指标异常
3)短视频业务需要哪些指标 哪三个指标最重要
4)业务指标有哪些,怎么衡量你所在的业务部门的贡献
5)一个业务场景问如何如分析,如何去提升
6)业务问题- 异常订单 两者纠纷处理
7)游戏业务中有哪些常用指标?
8)淘宝想发展短视频业务,请你对行业进行分析,并分析淘宝短视频的竞争力等
9)介绍一个和卡中心业务比较相关的项目(深挖:难点、负责板块、项目论文成果等)
10)对拼多多业务的理解
11)讲几个关于用数据进行业务分析的经历或例子
12)更倾向于业务方向还是技术方向
13)如何做一个能出圈的业务。如果做出这样一个业务,怎么验证出圈与否。
14)说一个之前实习经历中,给业务建议的case。
15)估算下10年后的高考人数
16)你做的分析报告有问题,业务方不满意怎么办
17)如何衡量一个活动的ROI
18)你在分析的时候有没有和业务的人沟通?去发现一些问题风险?
19)面试官表示自己是买菜部门的,大致介绍了一遍买菜的流程,然后问如何给这个业务建立一些指标。
20)平时用不用pdd,有什么理解
21)常用的APP,楼主说了B站豆瓣酷安三个社区类APP,面试官要求分析一下B站优缺点
22)怎么样的数据挖取能真正对业务起到指导作用?
23)快手和抖音目前都是滑滑的形态,你觉得在业务层面有什么不同?
24)滴滴业务关注的几个点是:司机、乘客、以及司乘之间供需关系的平衡,供需关系的调节可25)以通过调价、发放优惠券等手段
26)跟领导汇报抖音的业务,你会选择哪5个指标,为什么
27)你用过飞书吗?或者共享文档也行,你觉着怎么去通过拆分得到业务流程中的一个ah moment呢
28)实习最有价值的部分详细讲了讲背景、过程以及结果(给业务带来的实际增长效果)
29)公司中小微方向做的主要业务内容
30)线下零售店全国销售额相比Q2季度下降30%,请你分析下原因
31)对国际化业务是否有了解
32)结合你实习中的业务场景,介绍一下获取和处理数据的途径和流程?
33)关于视频app(比如爱奇艺)首页推荐的推荐顺序,你会考虑哪些指标?
34)有20000人的就餐需求,现建了一个新食堂,如何规划食堂的座位数?
35)boss直聘的投递量较低,你会如何提高?从前期调研、方案策划到推广复盘等过程说明一下
ABtest
1)在abtest的应用 p值的意义,第一类和第二类错误的定义是什么?
2)abtest的流程
3)自变量是不良体验反馈,因变量是留存率,方法论是ABtest,二者相关性该注意什么?
4)AB Test有什么缺点?
5)AB测试在什么平台上进行?介绍一下主要步骤?
6)分析一个case,case背景是陌陌换了匹配算法,要做abtest
7)算法部门上线了新的推荐算法,在ab-test中败给了老算法,让你找出其中的原因,需要说出具体思路和框架
8)简要介绍AB测,并给出样本量计算公式。
9)拼多多最近在测试两个不同的推荐算法,其中A比B好,从哪几个方面可以分析好的原因。
10)ABtest, 为了提高点击率,对界面进行了小幅度修改,有两个组 一组1000个人,有100个人点击,另一组1000个人,120人点击,怎么判断好不好
11)有没有接触过ABtest/经验,请说说对他的理解
12)选择AB实验的样本的时候,应该注意什么
13)如何设计ABtest确定此功能上线收益(正负收益平衡点)
14)根据上面说的改进点做AB测试,从什么角度来分析?
15)怎么验证你的改进办法有没有效
16)A/B test场景问题,第一类错误,第二类错误具体是什么,你觉得哪个更严重等延伸开的问题
行业与用户分析
1)这份实习中主要跟的项目或者case,自己独立完成的(可以使行业分析、可以使指标体系的搭建等),整个框架详细介绍
2)大三的实习怎么做数据的相关性分析和聚类
3)DAU下降分析
4)相关性分析
5)微信日收入下降分析
6)订单量下降会从哪些方面分析?
7)APP用户活跃度下降,如何分析
8)如何检验聚类分析结果
9)猿辅导在抖音上线一个视频,首页就有优惠券,点击优惠券的用户较多,但使用优惠券的用户较少,怎么分析
10)怎么预测接下来订单数 分析日活
11)A/B test显示B组提升了20%,如何验证是否属于正常波动
12)拼多多当月月活增加,怎么分析这批新用户是会给拼多多带来一个积极收益的用户(举例:13)不是渠道带来的低质量的用户或者羊毛党)
14)ctr下降怎么分析
15)如果用户经常访问app,但是下单量较少怎么分析,用户有目的的访问app(例如搜索女装),但是下单量较少怎么分析
16)在分析一款小游戏时,会涉及到哪些指标?
17)你了解的回归分析有哪些
18)淘宝某日销售额下降,分析原因
19)如果近期贝壳二手房成交量下跌,怎么分析
20)用滴滴的行为情况,问你用哪些数据做分析,方案的优缺点,可行性,效益这类问题
21)总体转化率下降,但是其余各渠道转化率正常,应该怎么进行分析?
22)某日营收下滑30%怎么分析?
23)GMV下滑严重怎么分析
24)DAU下降5%怎么分析
25)留存率下降该如何分析
26)爱奇艺想要提高付费会员数,应从哪几个方面分析。
27)给一张流量表,怎么识别不同渠道的变化?
28)分析的y,也就是因变量是什么
29)假如在天猫上有两款商品,如何分析它们的优势、劣势以及它们之间的差异,并根据结果给出相应的建议,思考5分钟再回答
30)情景是直播打赏,给主播刷礼物。平台希望通过刺激不付费的用户消费(提升付费率),来提升直播收入,所以现在上线了单价较低的打赏礼物。打个比方,原来最低价格的礼物是10抖币,现在新增的礼物只需要付2抖币。但发现直播的收益并没有明显提升,该如何分析?
31)平时分析中对接的人员
32)夏天北京网约车呼叫量增加,分析原因
33)现在的工作中涉及到分析的具体工作有哪些?
34)除了指标的监控之外,会有分析相关的工作吗?
35)举一个具体的例子,在工作中分析了什么问题,对公司有哪些影响和风险,你是怎么给出方案去改善去落地的?
36)你现在独立做分析报告吗?多久做一次?
37)假设给一个数据集,我会选择的分析步骤是什么样的?
38)就快手而言,要如何分析在没有营销手段拉动的情况下,什么样的作者/作品类型/作品内容自然增长是具有快速增长增量的
39)所以你擅长的内容实际上是在现成数据集上做挖掘分析对吗?
40)实习中如何分析用户流失路径
41)工作中做过什么专题分析
42)我们假设,飞书现在视频会议功能用户量骤减,你会怎么分析
那要是你作为一个内部人员的话,怎么分析这些数据呢
43)说一个你在实习中做异动指标分析的例子
44)如果最近DUA有较大抖动,你怎么去找核心原因?可以添加什么因素在这个分析模型中?
45)你刚才提到了版本你会用什么方法分析。(新版本上线分析)
行业分析
1)对你来说面对这样一个全新的行业,你并不是很熟悉,如果你接手这样一份工作,到岗后你会通过哪些方面的努力去适应这份工作,把这份工作做好?
2)谈谈对在线教育行业的理解
3)谈谈对短视频行业的理解
4)谈谈对游戏行业的理解

机器学习与数据挖掘

1)给你一个数列,要求你构造一个新数列,新数列里每一个值小于原数列的值且大于1,让abs(A[i]- A[i-1])的总值最大,比如 10 2 10 2 10,你可以构建10 1 10 1 10,输出值为36
2)adaboost和xgboost的区别;xgboost的并行体现在哪(工程上的并行,不是计算上的并行)
3)K-means、 K-means 算法的优缺点
4)KNN、K-Means区别
5)介绍一下k-means,你的数据如何处理,模型的输出是什么?
6)实习内容中:RFM模型和kmeans
7)特征工程怎么做的,选择了哪些特征作为预测变量?为什么用RFM模型来构建特征变量?
8)rfm模型介绍一下?
9)xgb原理
10)实习项目介绍,为什么用xgb
11)模型过拟合怎么处理
12)介绍一下模型融合
13)文本匹配算法
14)怎么防止过拟合
15)xgboost rf不同
16)lstm的原理、lstm和rdd的区别
17)处理噪声数据方法
18)了解逻辑回归、决策树吗
19)常用pandas哪个包
20)PCA知道吗
21)EM算法知道吗
22)评价指标
23)那,表示距离的指标有哪些?
24)ROC的了解情况,怎么画ROC
25)有很多维度的特征怎么来筛选?有什么方法?具体讲一个例子来
26)L1、L2的原理?两者区别?
27)boosting 和 bagging的区别
28)逻辑回归和xgboost有什么区别
29)有关机器学习random forest 和xgboost的区别
30)介绍自己学习了JD中提到的XGBOOST算法
31)决策树模型用到的xgboost
32)xgboost的特性
33)为什么选择xgboost而不是其他
34)xgboost的优点
35)xgboost常用的调参参数有哪些
36)研究生项目的面部识别模型,问了我GBM是什么,优缺点;还问了SVM/GBM/XGBoost的共同点和比较;最后问了XGBoost比较GBDT的区别。
37)SVM原理

Python

1)python讲自己用过的包的具体用法
2)python 斐波那契数列
3)python去重
4)介绍自己常用的语言,是否会用python
5)Python的list和numpy的array有什么区别
6)学Python多久
7)Python处理脚本都做过哪些东西呀
8)会用R语言和python是吗?
9)Python数据处理的常用函数
10)python方面的读取json
11)python题map一道
12)Python你常用的包有哪些?
13)工作中python会用到哪些?
14)python:数组逆序输出

费米估算

1)北京11点左右上空飞行的飞机数量?
2)上海大约有多少家用小轿车
3)估算北京五环实时车流量
4)每天全国的电单订单量大概是多少?
5)如何估计某一时刻某地上空的飞机数量,或者说如何获取相关信息
6)估计北五环有多少辆车
7)若贝壳要进入一个新的城市要如何去估计这个城市的需求量
8)怎么估算上海外卖员的数量
9)如何预估全国大学生人数
10)如何预估2030年高考生的数量。
11)估算上海地铁每天的客运量
12)估算江苏省面积
13)估算今年国庆全国的旅游消费总支出?

数据分析工具

1)用过Tableau嘛,公司内部用这个软件画什么图呢
2)用Tableau画过气泡图嘛
3)EXCEL的熟悉程度
4)EXCEL的基本概念
5)Power BI和Excel的对比
*以上题目来源为根据去年春招和秋招面经高度提炼,目前已有约2000篇数据分析师面经,且还有求职的应届生实时更新的面经,为确保大家可以看到实时内容,点击下方链接直接查看即可。
面试八股文+答案:
https://www.nowcoder.com/study/live/695/7/1
实时更新的面经
https://www.nowcoder.com/discuss/experience?tagId=894


第四章 offer选择,选好人生第一份工作

4.1 拿到了offer,如何选择?

关于如何选择offer,这里有几个小建议:

1、大厂优先。对于应届生来说,大家都是小白一枚,因此选择第一份工作时自己的成长和学习才是最重要的,因此能选择大厂就选择大厂,只有大厂才能给新人完整的培养体系和充足的学习资源。
2、项目为重。拿到offer时可以取打听入职后进入哪个项目组,在同是大厂的情况下,选择你喜欢和擅长的项目类型就尤为重要,有很多喜欢单机或卡牌的结果去做了页游休闲这些,这样会大大降低你的工作热情。
3、待遇其次。当既没有大厂offer,也没有很合适自己的项目时,薪资待遇就成为最重要的评判标准。这里提醒大家比较薪资时要关注薪资构成,不能单单比较总包。
4、对比体验。面试是互相了解的过程,相信每个公司的面试都会给你带来不同的体验,其实这些面试中表现出来的小细节很大程度上能反映出这家公司的真实情况,将不同公司的面试体验做对比,选择你更喜欢的一家。

毕业第一份工作的offer选择是非常重要的,很可能影响你以后职业生涯的整个走向,所以一定要慎重考虑选择。

如果你在选择offer的时候有任何困惑不解的话,都可以来牛客跟大家一起交流,也会有学长学姐帮你答疑解惑!

戳下方链接,发offer比较贴,和更多牛油一起交流offer选择问题。

结语

以上就是整个数据分析师春招求职手册的全部内容,由于篇幅有限,手册中一些实时更新的内容为大家做了指路,通过这一篇来查看即可。

PS:如果有找不到的咨询信息,可以直接在帖子下方留哦,第一时间为你指路~
#笔试题目##面试流程##数据分析工程师##面试题目##数据分析师#
全部评论
数据分析师求职手册楼主也整理出来了,楼主整理了一个系列呀!
点赞
送花
回复 分享
发布于 2022-02-14 17:32
上海羽山数据科技公司 提供大数据查询服务  联系人:张孝天   联系电话:137****8601   联系地址:上海市浦东新区芳甸路1155号浦东嘉里城4楼    邮箱:zhangxiaotian@yushanshuju.com公司网址:www.yushanshuju.com
点赞
送花
回复 分享
发布于 2022-03-02 15:54
国泰君安
校招火热招聘中
官网直投
可以,留着以后给师弟师妹们用
点赞
送花
回复 分享
发布于 2022-05-27 02:26
2、编程题 真题1 其实那个坑点对于 最终的计算结果影响不大 , 不过窗口函数的重新排序是更贴近 题目的计算要求
点赞
送花
回复 分享
发布于 2023-01-30 17:13 陕西

相关推荐

30 165 评论
分享
牛客网
牛客企业服务