2022-04-19 18:18 已编辑迅雷_数据分析师

关注

成为数据分析师之学习路线分享

一、岗位分析

数据中台数据分析：这种在规模比较大一点的公司会有专门的数据团队，负责各个业务线的数据分析工作，有专门的数据领导，不隶属于业务线。公司内部数据地位较高，数据权限较大。

数据科学家：一般归属于算法团队，主要做模型的理论研究及应用，日常工作内容多数时候在研究论文

业务数据分析：业务线下的数据分析师，主要为了快速的业务需求响应，日常工作主要是为了配合产品和运营做一些产出，数据权限及地位均不太高。

二、技能需求

1、统计学知识

①　各种图形图表

②　中位数、众数、均值、方差、标准差、相关系数、随机变量、离散变量、连续变量、贝叶斯公式、条件概率、自由度、峰度、偏度、相关性与因果性等等。

③　各种常见分布：二项分布、泊松分布、伯努利分布、均匀分布、正态分布、指数分布、卡方分布、F分布、t分布、Z 分布

④　大数定律与中心极限定理：切比雪夫大数定理、伯努利大数定律、辛钦大数定律、中心极限定理

⑤　假设检验P 值、置信区间、第一类错误、第二类错误、置信度、检验效能、单边与双边

2、业务理解

①　整个公司的业务流程：

具体而言依公司而定，不同公司根据定位不同，有不同的业务流程。

比如一个新闻资讯类app，我们可以通过内容和用户两侧进行分析，内容侧有整个的发文流程，如何从用户作者创造出作品，到呈现到用户面前，甚至于到后期作品的召回；

用户侧，则是从用户的来源渠道，到启动ap p，再到在各个内容页的具体消费等等。

②　场见业务分析思路：

RFM模型

漏斗模型（AARRR模型）

多维度拆解归因5W2HPEST模型......

3、SQL

DDL数据定义语言：

CREATE：创建数据库和表等对象（上传内容到新表、创建新表储存从其他表筛选过来的内容）

DROP：修改数据库和表等对象（直接删除命令）

ALTER：修改数据库和表等对象的结构（不常用）（用法：add 字段名、drop 字段名、modify column 字段名数据类型属性）

DML数据操纵语言：

SELECT查询表中的数据：

select、from、where、group by、having、order by、limit

数据类型：int、float、char、varchar、string、date、array

嵌套查询：

1、标量子查询2、关联子查询3、普通子查询：①将子查询的结果列，作为主查询的取值范围 ②将二维表作为主查询新的检索表

表联结：

自联结

组合查询（union、union all）

内部联结（inner join）

外部联结（left/right/full outer join）

常用函数：

条件函数：if、case when、nvl、coalesce、isnull...

数值型函数：rand、round、floor、ceil...

字符串函数：length、concat、upper、substr、split、get_json_object、regexp_extract...

日期函数：from_unixtime、unix_timestamp、datediff、date_sub、date_add、date_format...

聚合函数：count、sum、avg、min、max、percentile、percentile_appro x...

转换函数：cast、convert

窗口函数：

排序函数：rank()、dense_rank()、row _number()

分布函数：percent_rank()、cume_dist()

前后函数：lag()、lead()

聚合函数：sum()、avg()、count()、max()、min ()

INSERT向表中插入新数据：

1、插入字段数据（完整行/部分行）

2、插入select中的内容

UPDATE更新表中数据：

既可以更新指定列的值，也可以删除指定列的值

DELETE删除表中数据：

根据where删除指定行的数据，当不指定条件时，删除全部数据，但表依然存在，相对而言，truncate table删除所有数据的速度更快。

DCL数据控制语言

在SQL语言中，是一种可对数据访问权进行控制的指令，它可以控制特定用户账户对数据表、查看表、存储程序、用户自定义函数等数据库对象的控制权。一般用不到。

4、Python

python基础知识：

①变量、对象、自定义函数

②数据类型：字符串、整数、浮点数、布尔值

以及各种数据类型对应的函数及转换函数

③数据结构类型：列表、元组、集合、字典

以及各种数据结构所特有的功能和对应的函数

④逻辑结构

if语句for循环while语句

python知识进阶:

pandas包：pandas功能相当强大，尤其是在数据清洗方面，我们日常需要掌握的是pand as的众多函数与numpy之间的相互转化...

sklearn包：sklearn 包的主要功能是进行模型的搭建、参数调优及效果检验，但这些功能的实现都是建立在我们熟悉各个模型原理功能的基础上。

numpy包：常用功能--生成伪随机数、数组形状改变、四则运算与比较运算、广播运算、统计函数查看数组性质、numpy数组与pandas的DataFrame之间的相互转化...

此外还有很多使用频率没那么高的包，比如seaborn、matplotlib.pyplot、time、datetim e、math 等等，具体使用时，可以去查看功能。

5、excel

数据相关：

①公式与函数：例如：VLOOKUP、COUNT、MAX、RAND 等等。

②数据计算：分列、删除重复项、合并计算、模拟分析等等。

③数据处理

排序：简单排序、多关键词排序、自定义排序

筛选：自定义、高级、搜索功能

分类汇总：....

图表相关：

①普通图表：常用图表、设置标签、添加趋势线、更改布局等等。

②数据透视表

③单元格创建图形

6、模型搭建

分类模型：①有监督：朴素贝叶斯

KNN

SVM

树模型（单分类模型：ID.3、C4.5、CART

boosting模型：AdaBoost算法、GBDT算法（XGBoost、LightGBM）

bagging 模型：随机森林

孤立森林）

②无监督：

K-means

DBSCAN 聚类

层次聚类

高斯混合模型

自组织映射神经网络

神经网络

回归模型：

线性回归LASSO回归岭回归神经网络也可以用作回归模型一般以CART树为分类器或基分类器的模型也可以用作回归，但日常使用频率不高。

模型搭建中的问题：

样本不均衡：

①采样途径解决（过采样，常用S M O TE算法；欠采样，减少多数类样本的数量。）

②惩罚权重（带权值的损失函数、难例挖掘。）

特征加工：①数据的解码：列表、字典、时间戳等各种形式的数据的前期处理操作。②数据清洗：对重复值、缺失值、异常值等的处理。③特征归一化：线性函数归一化/零均值归一化④离散特征处理：序号编码、独热编码、二进制编码

特征降维：假降维：PCA算法降维真降维：线性判别分析R FE筛选变量树模型的特征筛选聚类筛选特征变量

模型评估：过拟合与欠拟合：

由此衍化而来的误差、方差、偏差问题。

评价指标：

①预测问题

MSE、RME、MAE、MAPE等。

②二分类问题

准确率、精确率、召回率、F1值、ROC 曲线、AUC值、KS曲线、PR曲线等。

③多分类问题

混淆矩阵

模型验证方法：

Holdout检验、交叉检验、自助法

超参数调优：

网格搜索、随机搜索

#数据分析##数据分析师#

全部评论

推荐最新楼层

sunshine girl

北京工业大学新媒体运营

请问大佬有什么经典学习书籍推荐吗

2 回复分享

发布于 2022-04-20 19:27

W_m

苏州大学设计

转发给学数据分析的朋友了~🤣

1 回复分享

发布于 2022-04-20 19:30

央国企直订神秘人

沈阳工业大学数据分析师

国企、央企、上市公司高薪招聘金融数据分析师工作地点：全国一、二线为主的城市（主要在银行）学历：全日制大专及以上学历，理工科,计算机相关专业优先年龄：22~30周岁薪资待遇：北方城市，五险一金，到手6000--8000起；南方城市，五险一金，到手10000--15000起，每年工资上调，双休、法定节假日等入职方式：短期培训后面试上岗（包就业，服务三年）

点赞回复分享

发布于 2022-06-14 09:45

offer轮到我

香港城市大学产品助理

劝退了。。。

点赞回复分享

发布于 2022-05-31 01:53

打工人改变世界

香港中文大学运营

感谢楼主分享的干货，收获满满

点赞回复分享

发布于 2022-04-19 21:20