首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
在debug的赖床专家很超脱
内蒙古科技大学 数据运营
发布于江苏
关注
已关注
取消关注
写的不错
@HsuHeinrich:
成为数据分析师的必要条件
开篇 成为数据分析师的必要条件作为一名成熟的数据分析师,那必然是要头顶Python,脚踩SQL,左手一个Tableau,右手一个Excel。能取数,会报表,埋点AB两不误,分析落地显价值。那在日常工作中具体需要具备哪些技能呢?笔者根据个人工作学习,对自己做了个技能画像。接下来,笔者将从工具应用、理论基础、数字基建、分析思维四个方面介绍数据分析的必要条件。对其中一些基本技能附上基础教程,帮助初学者迈进数据分析的大门。同时为了尽可能减少初学者走弯路,会在必要的地方做一些补充说明。工具应用我们不生产数据,但我们要灵活搬运数据。作为一名数据搬运工,一些趁手的工具那是必不可少的。SQL毫不夸张的说,一个数据分析师80%的时间都在写SQL。对于想入门的同学来说,SQL基础教程 是实用的。但实际工作的业务是千变万化的,Hive SQL在处理复杂的数据需求更有优势。但逻辑是相通的,这里只做概述,暂且不表。SQL是一个非严格的格式化要求语言,因此市面上的数据分析师的SQL格式千变万化,对于初学者无形中提高了Review代码的难度。一个优秀的数据分析师应该养成自己良好的代码风格,如果没有,可以参考后续系列的示例。对于数据分析师来说,一个好的文本编辑器也是必要的。推荐的包括Atom、VScode、Sublime。笔者更偏爱Sublime,具备轻量、本地文件管理、多语言支持、批处理操作等优点,爱折腾也能各种自定义。一些常用的Sublime操作 与笔者相似,推荐给大家。Python一方面Python是对SQL的补充,直白点说就是有的需求SQL写不出来,例如非结构化的文本数据、循环判断等。这个时候就需要通过Python进行数据处理,如果一些数据无法离线下载,就需要用到PySpark进行线上处理。另一方面,Python在数据挖掘、机器学习、自动化工作等方面应用广泛。当然R在数据处理与数据挖掘同样表现优异,不过由于笔者不会R,就不做介绍了。PySpark可以通过Python直接读取Hive集群,前提是需要数仓搭建完善的JupyterLab平台。后续会有相关案例,这里也就暂且不表了。对于想入门的同学,廖雪峰的python教程 是很好的入门教程,学到【模块】基本足矣。而Numpy、Pandas、Matplotlib作为Python数据分析三大宝剑,利用Python进行数据分析 可谓是数分从业者入门书籍。但在实际工作中,Numpy常用于科学计算,可视化分析也较多以Tableau或Excel为主。因此Pandas的重要性就凸显出来了,其基础教程可参考pandas教程 ,强化训练可参考图解Pandas。对于数据分析师来说,Anaconda + jupyter notebook 是绝佳的食用方式。因此对于初学者而言,没必要将大量的精力花费在折腾环境、编辑器上面。具体的只需要搜索【Anaconda安装教程】即可。Tableau一图胜千言,Tableau作为一款优秀的可视化分析软件/平台,具备易上手,上限高等优点,更重要的是能够处理亿万量级的数据。简单的可以制作任意的基本图表,复杂的可以制作精美的BI报表。Tableau官方入门指南 是很好的入门级教程。Tableau是一款付费软件,市面上的破解版过于老旧,因此建议大家支持正版。但正版的价格又很昂贵,所以想省钱的可以逛逛某宝,懂得都懂。当然Power BI也很优秀,由于笔者也不会,就不做介绍了。Tableau不建议过多地学习复杂高深的内容,更建议在日常分析中多使用。拖拖拽拽,发现问题,解决问题。自然就熟能生巧。对于SQL、Python亦是如此,数据分析是一个实践大于理论的职业,因此只需要有一定的基础便可以花更多的精力在业务实践上,以问题为导向进行自我提升。ExcelExcel作为最基本的数据分析工具却往往被大家忽略,优秀的Excel具有方便美观、对非技术型领导友好等优点。但是制作优秀的Excel往往需要较高的学习成本和时间成本,因此大多数数据分析师只需要学会Vlookup和数据透视即可。Git对于所有需要协同工作的场景,Git都是必不可少的。数据分析作为非专业开发人员,少许的Git基础即可流畅地协同工作。廖雪峰的Git教程 是浅显易懂的。Linux有些情况例如配置各种环境、登陆集群服务器等,就会使用到命令行工具,因此基础的Linux命令是必要的。 事实上在需要的时候去查找使用更为合理。Markdown这个是不必要的,但由于Markdown能让人们更多地关注内容本身而非排版,因此在日常维护wiki,内容分享等方面都极为高效,所以强烈建议工作之余学习。官方基本语法是很好的学习资源,如果有想进行写作分享的,还可以在线排版非常方便,但是更建议本地通过Typora写作后再进行线上排版。Typora目前正式版开始收费,不想付费的可以下载Beta版本,功能基本满足需求。Markdown写作还有一个重要的问题是解决图床问题,好在Typora+PicGo+Gitee就能轻松实现。理论基础万丈高楼平地起,基础往往能决定上限。统计学统计学是数据分析的灵魂,虽然很多人在工作中感觉不到。但实际上日常所做的汇总统计、分布、探索性分析、相关、回归、假设检验、抽样、总体推断等等都是由统计理论所支撑的。建议学习《商务与经济统计 精要版 原书第7版》。计量经济学计量与统计是相似的,如果说统计更偏重于理论的话,计量则更偏重于应用,往往可以将实际问题抽象为计量模型进行实证研究。但是花费大量的时间去学习计量经济学是不明智的,但是多多了解也是有益的。推荐阅读陈强老师的《高级计量经济学及Stata应用》,里面有详实的计量模型案例。算法基础/机器学习/数据挖掘从数据分析师的角度看,这三者其实差异不大。数据分析师与算法工程师的最大差异在于,数分更偏重于成为调包侠,当然,你算法基础越扎实,调包调参就会越丝滑。而机器学习更注重结果是否work,而很少对数据形式进行统计验证。这里推荐两本书给大家,《Python大数据分析与机器学习商业案例实战》帮你快速成为调包侠,《Python数据分析与数据化运营 第2版》通过详实的案例指导你如何利用算法进行业务驱动。统计学能极大的提高分析师的下限,计量经济学则能提高分析师的模型抽象能力,机器学习则能提高分析师解决实际问题的能力。因此,当你感觉自己出现瓶颈的时候,不妨在这三方面进一步深入学习。数字基建同样的,数字基建就是数据驱动的基础。数据支持直白一点就是临时的数据需求,分析师的终极目标之一就是消灭临时数据需求,然而事实是残酷的,大部分公司的数据支持占用了分析师50%以上的时间。所以强大的业务理解,沟通合作以及SQL能力是必须的。笔者根据本人的工作经验和爬坑经历,给出最真诚的6点建议:区分维度和度量。当你明确了维度和度量以后,你脑中自然就形成了最终数据表格的框架。问清楚时间。很多数据需求验收不过关都出在时间问题上,例如数据要工作量还是转化漏斗,按自然日统计还是按状态变更时间统计等。关注重复数据。有些记录不应该出现重复情况,需要给定规则进行去重。明确是结果表还是日志表。结果表往往没有状态变更的时间,只有最终一个结果,日志表则是生成结果表所有过程的记录。快速的数据验证往往建立在明细的基础上。在做数据校验时,通常由外及里,拉出明细进行比对。制作SQL模版或定时邮件。一些相似的、频繁的、周期性的数据需求可以抽离出来进行固化,绝大多数完善的数仓都会开发出相应的平台供分析师使用。数据分析师在做临时数据需求也是有段位的,在和需求方沟通时的表现就能看出来:青铜:两眼迷茫,似懂非懂的,然后就进入了漫长的无意义沟通环节。白银:当时理解了,回来一着手就感觉不对,然后时间就浪费在了反复沟通确认上。黄金:顺利的跑出了数据,交给需求后要么是数据不对,要么就是并非业务想要的,接下来就是反复地修改。钻石:get到业务的真实诉求,引导业务正确的提出需求,沟通结束大致结果就已经出现在自己脑子里了。回去排个期,摸个鱼,在deadline之前发出去,业务见了都夸好。王者:你这个需求不合理/没有意义。霸气拒之~数据埋点数据分析师应该和产研一起参与到埋点工作中去,如若不然,你在排查埋点数据异常的时候能把自己气到吐血。分析师最常见的埋点工作就是进行埋点设计和埋点测试。埋点一般根据产品经理的产品搞进行设计,不同公司的埋点设计标准千差万别,但最为常见的就是三段式【事件类型/页面/事件】和四段式【事件类型/页面/模块/事件】。埋点命名采用驼峰命名,并记录主要的参数。埋点测试主要根据设备进行区分,安卓设备通过ADB测试,iOS设备可用mac的控制台,H5页面则通过Charles进行抓包。指标体系指标体系可以通过一系列有联系的特征来洞察全局,推动运营。指标使得业务可拆解量化,体系则是观察维度,简单的说就是维度+度量。指标体系的搭建是有迹可寻的,一般会用到OSM+AARRR+UJM+MECE四大模型。OSM模型确定整体框架,O(Object)一般是业务核心KPI。明确目标后,需要制定相应的S(Strategy),这个可以利用AARRR模型拆解业务漏斗,UJM模型模拟用户路径对S进行拆解。而M(Measure)则是对策略效果的评估指标,可以通过MECE模型对M进行拆解穷尽。BI报表BI报表是指标体系的具体呈现,一般会将核心指标、一级指标做成经营报表,常以大盘形式展现给管理层。拆解后的S和M做成运营报表,用来指导业务运营。每个公司的报表体系也是千差万别的,但是其核心还是SQL,并辅以调度系统将数据写入数据库。为了保证前端查询的时效性,常见的有MySQL和ES(Elasticsearch),对于实时大数据则考虑TiDB、Flink,对于动态多维数据则考虑Kylin。当然这些底层设计都是需要数仓开发完善的,分析师只需要入乡随俗即可。自动化工作自动化工作是一种统称,例如前面所说的SQL模版、定时邮件、BI报表,但是这些数仓在开发相关平台的时候,往往只是将SQL查询的数据以某种形式呈现,可扩展性不高。一些特异的自动化需求就需要自力更生了,一般需要综合调度系统、crontab、Python、PySpark完成数据的读写,Excel和Tableau则可以实时连接MySQL,Python可以将数据推送至邮件、企业微信、钉钉等。自动化工作的核心在于读取Hive集群数据并写入MySQL,有的公司有相应的调度系统可用,如果没有则可以利用crontab+Python+PySpark实现。当然具体实施细节会涉及到很多权限问题需要协调解决,其实这一部分也是非必要的。分析思维一般的分析思维包括对比、分群、相关、因果,但笔者更倾向于分为异动分析、分群思维、数据挖掘、试验驱动。异动分析异动分析是一个综合性分析,但核心思想是对比分析。在软技能层面涵括了业务理解、结构化思维、逻辑推断能力,硬技能方面又体现了数据校验、统计基础、指标拆解、维度下钻、比较分析、漏斗分析、事件分析等综合技能。其实这些思维能力基本上在开发指标体系与BI报表的时候就已经体现出来了,异动分析强依赖于BI报表,所以优秀的报表能极大的缩短分析师定位异常的时间。当然有些异动藏的比较深,这个时候就需要有一步步抽丝剥茧,其关键就是维度下钻+指标拆解,核心思想则是对比分析。分群思维物以类聚,人以群分。分群是精细化运营的核心,也是对比分析的前提。最常见的分群就是维度下钻,这个是基于业务角度的分群方式。还有很多基于数据角度的分群方法,例如一维的帕累托法则,二维的波士顿矩阵,三维的RFM模型,多维的聚类等。同期群分析是一种特殊的分群方式,它在分群的同时又彰显了时间信息。数据挖掘利用算法模型挖掘影响标的变量的关键因素,其实质是相关性分析。这是一类广泛的问题,主要包括分类和预测,在一些专题分析中应用广泛。试验驱动试验思维是一种低成本的因果分析思维,通过一系列科学步骤将小流量的实验结论推至总体。最常见的就是A/B试验,是创新驱动的一大利器。因果推断除了A/B试验外,还有传统的计量方法,例如合成控制法、断点回归、倾向得分匹配、双重差分法。以及开源的因果推断框架,例如dowhy、Causal Impact等。实际上,由于A/B试验的推广和完善,基于试验外的因果推断很少有应用,所以重点还是要掌握A//B试验。总结以上能大致绘制出一个数据分析师的轮廓,总结起来就是擅长SQL、Python、可视化分析,并具备统计基础和分析思维。通过实践沉淀出数据敏感性和业务敏感性。共勉~
点赞 142
评论 10
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
10-09 14:18
厦门大学 驱动开发
国庆浑浑噩噩 节后调整投递策略---HR内部节奏
一、先破误区:这两个时间点投了也白投很多人觉得“节后第一时间投递最抢先”,但现实往往是“早投早沉底”。这两个高频误区一定要避开:- 节后第一周(10月8日-14日):竞争红海+HR怠工期据猎聘后台数据显示,国庆后第一周的简历投递量会比平时暴涨230%,但HR的简历处理效率却下降40%。一方面,业务部门还在梳理节后工作重点,招聘需求没完全明确;另一方面, HR要处理假期积压的邮件、会议,还要应对“节后综合症”,根本没精力仔细筛简历。有HR直言:“这时候的简历要么堆到第二周,要么直接归为‘待看’,能被打开的概率不到20%。”- 深夜/周末投递:直接被系统“压箱底”现在主流招聘平台默认按“投递时间排...
点赞
评论
收藏
分享
10-10 11:30
学而思_学科教育管理(准入职员工)
学而思内推,学而思内推码
【总面试流程】初试+复试&面谈+岗前培训+签约offer,可能因为现在都在秋招,所以我走了校招流程,其实应该大致都差不多,只是我多参加了一个宣讲会,昨天收到面试未通过的消息,止步于复试&面谈。 1、初试:关注微信公众号:广州学而思校园招聘,里面有相应的题目,选择你面试科目对应的题即可,英语老师是模仿一个三分钟的视频,其实我觉得这个是比较简单,自信大方地上去讲就好了,可能要多注意和学生的互动,不要只站在讲台上。 2、复试&面谈:其实至今思前想后,都觉得自己表现很好,复试和初试一样,还是讲你模仿的视频,我还根据初试时,一位男面试官在初试结束后,给我们表演了一段他怎么讲的,...
点赞
评论
收藏
分享
09-24 13:54
已编辑
辽宁传媒学院 多媒体设计
这样的有希望被大厂看中吗。。
第一次弄简历感觉好难啊,投了一些但也都石沉大海,问问还有什么修改意见啊
妄越Ccc:
你在这拍写真呢?
那些拿到大厂offer的...
点赞
评论
收藏
分享
10-08 17:06
迅雷_X-PEP 产品星(准入职员工)
迅雷内推,迅雷内推码
产品面经,摘自优秀牛油一面:群面(产品和运营混合),一组大概78910个人吧(我们组10个),我们抽到的题目是选一款直播APP,设计成小程序,并简要设计初期冷启动的增长方案。一个小组有30分钟的讨论时间(自我介绍+leader自荐+讨论+汇报+补充)。中午等一面结果,10进3。二面:单面(业务面),是一个很温柔的面试官,问题也比较常规,主要围绕简历,问实习经历的项目和科研经历,抠得比较细,会问一个项目是怎么做的,有什么收获(贡献),数据分析对于产品的意义,还让我介绍了我的两个科研项目。三面:HR面,问了一些家庭基本情况,研究生的日常(科研、生活、工作),杭州和深圳的印象,杭州景点推荐,给HR推...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
JVM调优
1.6W
2
...
前端面试,八股怎么准备?(附速通版)
9613
3
...
恒生电子笔试交流
4969
4
...
如何委婉地拒绝offer
4863
5
...
双非秋招记录(下)
3865
6
...
HR面,到底该准备些啥(附核心问题回答思路)
3758
7
...
选对公司跟选对人是一样的
3724
8
...
国庆有感 测开劝退
3614
9
...
分享一个很友好的公司
3179
10
...
绿盟 安全工程师
2490
创作者周榜
更多
正在热议
更多
#
国庆后,我的返工状态
#
13493次浏览
64人参与
#
校招求职有谈薪空间吗
#
171770次浏览
2172人参与
#
爱玛科技集团求职进展汇总
#
15786次浏览
148人参与
#
一觉醒来,穿越回国庆前
#
23280次浏览
88人参与
#
找工作前vs找工作后的心路变化
#
23735次浏览
198人参与
#
职场中你干过哪些“蠢”事
#
121975次浏览
702人参与
#
深信服秋招来了
#
277521次浏览
2911人参与
#
租房前辈的忠告
#
254642次浏览
7092人参与
#
电信求职进展汇总
#
17528次浏览
114人参与
#
26届秋招投递记录
#
42083次浏览
479人参与
#
实习生应该准时下班吗
#
287297次浏览
1576人参与
#
非技术岗是怎么找实习的
#
254421次浏览
2519人参与
#
央国企投递记录
#
119146次浏览
1506人参与
#
腾讯音乐求职进展汇总
#
130397次浏览
988人参与
#
面试被问“你的缺点是什么?”怎么答
#
148472次浏览
1798人参与
#
产品人专业大盘点
#
57630次浏览
300人参与
#
安利/避雷我的岗位
#
628695次浏览
5306人参与
#
米哈游求职进展汇总
#
452282次浏览
2743人参与
#
找工作有哪些冷知识
#
157576次浏览
2437人参与
#
机械人与华为的爱恨情仇
#
130560次浏览
1002人参与
#
滴!实习打卡
#
699968次浏览
6626人参与
#
薪资爆料
#
167053次浏览
1380人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务