成为数据分析师之学习路线分享

一、岗位分析

数据中台数据分析:这种在规模比较大一点的公司会有专门的数据团队,负责各个业务线的数据分析工作,有专门的数据领导,不隶属于业务线。公司内部数据地位较高,数据权限较大。

数据科学家:一般归属于算法团队,主要做模型的理论研究及应用,日常工作内容多数时候在研究论文

业务数据分析:业务线下的数据分析师,主要为了快速的业务需求响应,日常工作主要是为了配合产品和运营做一些产出,数据权限及地位均不太高。


二、技能需求

1、统计学知识

① 各种图形图表
② 中位数、众数、均值、方差、标准差、相关系数、随机变量、离散变量、连续变量、贝叶斯公式、条件概率、自由度、峰度、偏度、相关性与因果性等等。
③ 各种常见分布:二项分布、泊松分布、伯努利分布、均匀分布、正态分布、指数分布、卡方分布、F分布、t分布、Z 分布
④ 大数定律与中心极限定理:切比雪夫大数定理、伯努利大数定律、辛钦大数定律、中心极限定理
⑤ 假设检验P 值、置信区间、第一类错误、第二类错误、置信度、检验效能、单边与双边

2、业务理解

① 整个公司的业务流程:
具体而言依公司而定,不同公司根据定位不同,有不同的业务流程。
比如一个新闻资讯类app, 我们可以通过内容和用户两侧进行分析,内容侧有整个的发文流程,如何从用户作者创造出作品,到呈现到用户面前,甚至于到后期作品的召回;
用户侧,则是从用户的来源渠道,到启动ap p, 再到在各个内容页的具体消费等等。

② 场见业务分析思路:
RFM模型
漏斗模型(AARRR模型)
多维度拆解归因5W2HPEST模型......

3、SQL

DDL数据定义语言:

CREATE:创建数据库和表等对象(上传内容到新表、创建新表储存从其他表筛选过来的内容)

DROP:修改数据库和表等对象(直接删除命令)

ALTER:修改数据库和表等对象的结构(不常用)(用法:add 字段名、drop  字段名、modify column  字段名 数据类型 属性)


DML数据操纵语言:

SELECT查询表中的数据:

select、from、where、group by、having、order by、limit

数据类型:int、float、char、varchar、string、date、array

嵌套查询:

1、标量子查询2、关联子查询3、普通子查询:将子查询的结果列,作为主查询的取值范围 将二维表作为主查询新的检索表

表联结:

自联结

组合查询(union、union all)

内部联结(inner join)

外部联结(left/right/full outer join)


常用函数:

条件函数:if、case when、nvl、coalesce、isnull...

数值型函数:rand、round、floor、ceil...

字符串函数:length、concat、upper、substr、split、get_json_object、regexp_extract...

日期函数:from_unixtime、unix_timestamp、datediff、date_sub、date_add、date_format...

聚合函数:count、sum、avg、min、max、percentile、percentile_appro x...

转换函数:cast、convert


窗口函数:

排序函数:rank()、dense_rank()、row _number()

分布函数:percent_rank()、cume_dist()

前后函数:lag()、lead()

聚合函数:sum()、avg()、count()、max()、min ()


INSERT向表中插入新数据:

1、插入字段数据(完整行/部分行)

2、插入select中的内容


UPDATE更新表中数据:

既可以更新指定列的值,也可以删除指定列的值


DELETE删除表中数据:

根据where删除指定行的数据,当不指定条件时,删除全部数据,但表依然存在,相对而言,truncate table删除所有数据的速度更快。


DCL数据控制语言

在SQL语言中,是一种可对数据访问权进行控制的指令,它可以控制特定用户账户对数据表、查看表、存储程序、用户自定义函数等数据库对象的控制权。一般用不到。


4、Python

python基础知识:

变量、对象、自定义函数

数据类型:字符串、整数、浮点数、布尔值

以及各种数据类型对应的函数及转换函数

③数据结构类型:列表、元组、集合、字典

以及各种数据结构所特有的功能和对应的函数

④逻辑结构

if语句for循环while语句


python知识进阶:

pandas包:pandas功能相当强大,尤其是在数据清洗方面,我们日常需要掌握的是pand as的众多函数与numpy之间的相互转化...

sklearn包:sklearn 包的主要功能是进行模型的搭建、参数调优及效果检验,但这些功能的实现都是建立在我们熟悉各个模型原理功能的基础上。

numpy包:常用功能--生成伪随机数、数组形状改变、四则运算与比较运算、广播运算、统计函数查看数组性质、numpy数组与pandas的DataFrame之间的相互转化...

此外还有很多使用频率没那么高的包,比如seaborn、matplotlib.pyplot、time、datetim e、math 等等,具体使用时,可以去查看功能。


5、excel

数据相关:

①公式与函数:例如:VLOOKUP、COUNT、MAX、RAND 等等。

②数据计算:分列、删除重复项、合并计算、模拟分析等等。

③数据处理

排序:简单排序、多关键词排序、自定义排序

筛选:自定义、高级、搜索功能

分类汇总:....


图表相关:

①普通图表:常用图表、设置标签、添加趋势线、更改布局等等。

②数据透视表

③单元格创建图形


6、模型搭建

分类模型:①有监督:朴素贝叶斯

KNN

LR

SVM

树模型(单分类模型:ID.3、C4.5、CART

boosting模型:AdaBoost算法、GBDT算法(XGBoost、LightGBM)

bagging 模型:随机森林

孤立森林)


②无监督:

K-means

DBSCAN 聚类

层次聚类

高斯混合模型

自组织映射神经网络

神经网络


回归模型:
线性回归LASSO回归岭回归神经网络也可以用作回归模型一般以CART树为分类器或基分类器的模型也可以用作回归,但日常使用频率不高。

模型搭建中的问题:

样本不均衡:

采样途径解决(过采样,常用S M O TE算法;欠采样,减少多数类样本的数量。)
惩罚权重(带权值的损失函数、难例挖掘。)

特征加工:①数据的解码:列表、字典、时间戳等各种形式的数据的前期处理操作。②数据清洗:对重复值、缺失值、异常值等的处理。③特征归一化:线性函数归一化/零均值归一化④离散特征处理:序号编码、独热编码、二进制编码

特征降维:假降维:PCA算法降维真降维:线性判别分析R FE筛选变量树模型的特征筛选聚类筛选特征变量

模型评估:过拟合与欠拟合:

由此衍化而来的误差、方差、偏差问题。


评价指标:

①预测问题

MSE、RME、MAE、MAPE等。

②二分类问题

准确率、精确率、召回率、F1值、ROC 曲线、AUC值、KS曲线、PR曲线等。

③多分类问题

混淆矩阵


模型验证方法:

Holdout检验、交叉检验、自助法

超参数调优:

网格搜索、随机搜索



#数据分析##数据分析师#
全部评论
请问大佬有什么经典学习书籍推荐吗
2 回复 分享
发布于 2022-04-20 19:27
转发给学数据分析的朋友了~🤣
1 回复 分享
发布于 2022-04-20 19:30
国企、央企、上市公司高薪招聘金融数据分析师 工作地点:全国一、二线为主的城市(主要在银行) 学历:全日制大专及以上学历,理工科,计算机相关专业优先 年龄:22~30周岁 薪资待遇:北方城市,五险一金,到手6000--8000起;南方城市,五险一金,到手10000--15000起,每年工资上调,双休、法定节假日等 入职方式:短期培训后面试上岗(包就业,服务三年)
点赞 回复 分享
发布于 2022-06-14 09:45
劝退了。。。
点赞 回复 分享
发布于 2022-05-31 01:53
感谢楼主分享的干货,收获满满
点赞 回复 分享
发布于 2022-04-19 21:20

相关推荐

06-05 00:54
已编辑
北京邮电大学 前端工程师
蹲个女生舍友,杭州西溪。--------------以下是正文--------------先说一下我个人情况,北邮通信工程,我在本科的时候做过几个微信小程序,忘光了。在今年2月份开始极速学习前端基础。代码算法方面,研一和大四的时候跟着代码随想录刷过一次。轻微流水账,这是一个记录贴。初衷希望能给0实习转码的同学一些鼓励,相信一定能找到愿意培养自己的公司。第一次找工作没什么经验,秋招会及时复盘面经发出来,这次就先不弄了。我从1月份就开始调研咋学习前端,开始慢悠悠学习html和css知识,到二月份开学了才开始对暑期实习感到十分的担忧,开始拼命学js。之前就接触过相关内容所以学的很快,半个月左右就学完了。然后就开始一边学习react一边做项目。4月初开始陆续投递,等了一周就开始有面试了。第一个面的美团,上来就是一个hard代码题,hot100还没刷完的我感到十分挫败。五月中旬之前,我一直处于反复一面的状态。基本上一天三面。晚上还得做笔试。崩溃边缘,但是还得鼓励(欺骗)自己下周必拿offer。或许是乐观的心态,让我在16号以后开始收到一些公司的二面了。包括美团,阿里(智能信息),腾讯,字节。我非常高兴,说明我五一不出去玩,恶补八股和手撕是真的有用。运气好了之后就开始一直破天荒的好。我阿里的淘天和阿里云也进二面了。我记得自己虽然表现的还行,但是整体并不突出。5月20/21号,这两天是小情侣过节的日子。我记得我20号面了美团,阿里智能信息二面,21号面了腾讯,字节,淘天二面,晚上还做了一个笔试。累的半死的同时,实验室导师还在催我的科研进度,我回复:好的。没想到,阿里智能信息居然问了我通信原理,本科学科等很多很泛的问题。我以为要凉了,结果没过一个小时,hr联系我:你好,你的二面已经通过,需要您再做一个线上笔试。我欣喜若狂,不敢相信二面居然问这些都能过。笔试做完了之后,也是立马有hr联系我,约hr面。5月22号,hr面。当场发offer,我整个人都懵了。心里怀疑对方是不是诈骗公司,然后又反复确认。缓了半天,才发现自己居然能去阿里了。简直是做梦都不敢想。我记得我前几天面试压力太大,还梦到过实验室组会汇报自己的offer进度,大家都去阿里。而我连甚至一个offer都没有可以汇报。当场吓醒。最后必须说,阿里真的太好了,愿意相信实习生的潜力,真的给了很多0实习的同学实习机会。我永远是阿里孝女!!!!!---------------分割线-----------记录一下自己转码以来遇到的一些贵人。1.字节的一面面试官,在我最崩溃的时候给了我鼓励和肯定。当时给我面了一个半小时。最后我问他对建议的时候,他说,“你是候选人里面算是比较优秀的了,但是我们这个业务要求很高,我担心把你招进来影响你的成长。”并且还给我推荐学习资料,红宝书。还和我说,“如果你想要继续做前端的话,我可以告诉你,前端依然是十分有前途的方向,希望你可以继续努力。”他的话真的十分中肯。当时我甚至感动哭了,我非常清楚自己不是因为被拒绝哭了(毕竟其实已经麻了)2.腾讯的一位面试官。给了我很多叮咛,告诉我准备好在面试等等。让我感觉十分有力量,我当时觉得我身边那么多帮助我的好人,我怎么可能不成功呢。3.北邮的一位学长,他在一开始给了我职业选择方面的建议,让我坚定了自己的道路。4.我遇到的每一个面试官都出奇的好,没有因为我很菜就表现不耐烦,十分感恩他们的手下留情。5.感谢有对象的陪伴,让我有好好吃饭的动力,并且也一直督促我学习,还帮我把一些高频的手撕和高频的计算机相关的八股梳理出来。有的时候真的想放弃,但是他一直在我旁边和我说,一定要坚持,不能放弃。
点赞 评论 收藏
分享
评论
64
476
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务