数据分析自学01提纲篇

整理自网上的。

框架

第一周:Excel学习掌握

学会搜索,重点是vlookup函数(SQL的jion以及Python中的merge)和数据透视表(SQL中的group以及Python中的pivot-table)

Excel熟能生巧,不要合并单元格,不要过于花哨,按照原始数据(sheet1)、加工数据(sheet2)、图表(sheet3)的类型管理。

  • 了解单元格格式,后期的数据类型包括各类timestamp,date,string,int,bigint,char,factor,float等。
  • 了解数组,以及怎么用(excel的数组挺难用),Python和R也会涉及到 list。
  • 了解函数和参数,当进阶为编程型的数据分析师时,会让你更快的掌握。
  • 了解中文编码,UTF8和ASCII,包括CSV(逗号分隔值)的delimiter等。


第二周:数据可视化

掌握代码的数据分析,掌握BI(商业智能),更擅长解释已经发生和正在发生的数据。

三个过程:了解数据(图表),整合数据(BI),展示数据(信息化,可视化)。


第三周:分析思维的训练

了解思维导图,之后再了解SMART5W2HSWOT4P理论。六顶思考帽等框架。

分析的框架和方法论:

  • 一个业务没有指标,则不能增长和分析;
  • 好的指标应该是比率或比例;
  • 好的分析应该对比或关联。


第四周:数据库学习

主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的逻辑,时间转换函数等。

如果想要跟进一步,可以学习row_number,substr,convert,contact等。另外不同数据平台的函数会有差异,例如Presto和phpMyAdmin。

再有点追求,就去了解Explain优化,了解SQL的工作原理,了解数据类型,了解IO。


第五周:统计知识学习

我们需要花一周的时间掌握描述性统计,包括均值、中位数、标准差、方差、概率、假设检验、显著性、总体和抽样等概念。


第六周:业务知识(用户行为、产品、运营)

宽泛的业务数据:

产品数据分析,以经典的AAARR框架学习,了解活跃留存的指标和概念。数据分析师需要知道如何用SQL计算。因为在实际的分析过程中,留存只是一个指标,通过userId 关联和拆分才是常见的分析策略。

网站数据分析,用户从哪里来(SEO/SEM),用户到哪里去(访问路径),用户是谁(用户画像/用户行为路径)。

用户数据分析,这是数据化运营的一种应用。

在产品早期,可以通过埋点计算转化率,利用AB测试达到快速迭代的目的,在积累到用户量的后期,利用埋点去分析用户行为,并且以此建立用户分层用户画像等。比如用贝叶斯算法计算用户的性别概率,用K聚类算法划分用户的群体,用行为数据作为特征建立响应模型等。


第七周:Python/R学习

R语言的开发环境建议用RStudio。

学习Python有很多分支,我们专注数据分析这块。需要了解调用包、函数、数据类型(list,tuple,dict),条件判断,迭代等。高阶的Numpy和Pandas在有精力的情况下涉及。


四步建立数据分析思维框架

①.建立指标体系

②.明确好指标和坏指标

好指标应该是核心驱动指标。虽然指标很重要,但是有些指标需要更重要。就像销量和利润,用户数和活跃用户数,后者都比前者重要。

核心驱动指标和公司发展关联,是公司在一个阶段内的重点方向。互联网公司常见的核心指标是用户数和活跃率,用户数代表市场的体量和占有,活跃率代表产品的健康度,但这是发展阶段的核心指标。

另外一方面,好的指标还有一个特性,它应该是比率或者比例。

坏指标包括:

一是虚荣指标,它没有任何的实际意义。

二是后验性指标,它往往只能反应已经发生的事情。

三是复杂性指标,它将数据分析陷于一堆指标造成的陷阱中。

③.建立正确的指标结构

这套框架列举的指标,依旧要遵循指标原则:需要有核心驱动指标。移除虚荣指标,适当的进行删减,不要为添加指标而添加指标。

和分析思维的金字塔结构一样,指标也有固有结构,呈现树状。指标结构的构建核心是以业务流程为思路,以结构为导向。

④.了解维度分析法(数据透视表)

当你有了指标,可以着手进行分析,数据分析大体可以分三类:

1. 利用维度分析数据。2.使用统计学知识如数据分布假设检验。3.使用机器学习。

对于维度的理解:维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度。

分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比,比如不同地区维度的对比,比如产品类型的区别对比,比如不同用户的群体对比。单一的数据没有分析意义,只有多个数据组合才能发挥出数据的最大价值。

我们通过业务建立和筛选出指标,将指标作为维度,利用维度进行分析。

维度是说明和观察事物的角度,指标是衡量数据的标准。维度是一个更大的范围,不只是数据,比如时间维度和城市维度,我们就无法用指标表示,而指标(留存率、跳出率、浏览时间等)却可以成为维度。通俗理解:维度>指标。



全部评论

相关推荐

头像
不愿透露姓名的神秘牛友
04-29 12:10
点赞 评论 收藏
转发
3 10 评论
分享
牛客网
牛客企业服务