零基础四个月上岸“大厂”大数据-如何进阶了解大数据
1、大数据是什么?在这里我就不百度Google出来这里名词性定义了,简而言之就是数据量大嘛,大到一定程度大家都想去挖掘里面的价值去利用它产生利益嘛…,以上纯属个人理解哈哈。
2、企业中的大数据岗位有哪些?相信很多小白想从事大数据的时候,总会在google上先搜索大数据岗位有哪些,出来的可能有 大数据系统研发工程师、大数据应用开发工程师,大数据分析师,机器学习/大数据工程师等等。。。老实说,我之前也是这么过来的,但是看到这些稀有名词都差点把我劝退了。每个工作岗位基本上一项不会,可能除了会点深度学习基础python(pytorch、tensorlfow这些),简直太打击人了。好了,那我就今天按照我秋招过程中所了解的以及我朋友的多段大厂实习经历来看,无论是大厂还是中小企业目前大数据岗位主要有哪几个。
大数据之数据中台:
工作内容是什么?简单理解就是平台开发,大家都知道hadoop是大数据平台,可能我们学习的时候已经觉得它已经是很完善啦,但是作为大型企业,面对不同的需求和对计算速度的追求,基于Filnk、spark、kafka这些平台和引擎,他们需要自己去维护和开发这些平台,以达到他们的目的。所以数据平台开发基本就是跟框架的底层打交道,底层用的是什么,基本上都是java了。所以你如果想做平台开发,java肯定是必会的嘛,其次对于大数据框架下的这些底层肯定是要懂些源码的,至少别人问你一些优化,看没看过源码可以答出来那么一点。最后呢,就是数据中台目前来看(重点,目前来看)可能主要集中在一线大厂中有这些岗位需求。这是因为目前可能只有大厂的数据量能达到他们需要去开发和维护自己的平台,而且可能这个岗位的需求量不是很大,平台不是一直需要去开发,只是相对而言,数据中台的岗位可能需要的技术要求更高,发展前景更好,基本上你连底层都精通了,后面想去做其他的岗都是手到擒来。
大数据之数据仓库:
工作内容是什么?数据仓库可能就是大部分大数据求职者的一个主要选择。其一是因为基本上有大数据岗的企业绝对都有数仓职位,因为绝大多数企业开设大数据岗位就是做数据仓库的,构建自己的数据仓库,然后再上面进行利用。其二,目前来看数仓的能力要求相比其他两种岗位会相对低点,但是薪资是无区别的,而且数仓虽然工作绝大多时候都是数据建模,写sql,但是更贴近业务,你以后会更容易跳槽,涨薪等(这个是我朋友在字节实习期中,leader谈心跟他讲到的),所以在这个方向的职业我觉得绝大多数人是需要好好去考虑的。
大数据之机器学习和推荐算法:
工作内容是什么?这个岗位我也有去投过,应该我投简历的时候想毕竟我也会擅长深度学习加上自己自学的大数据,不应该是完美契合这个岗位嘛,但现实是其实这个岗位基本上就是算法岗了,和其他算法岗没有什么本质区别,门槛很高,对于我这种双非院校,或者没有一区论文的人来说基本不友好,投出去的简历基本上没什么后续,所以就没什么可推荐的啦。
大数据之BI、ETL:
这一类工作可以算是大数据擦边的职业,它理论上应该算不上开发岗,基本上就是写sql的,工作内容主要是清洗和处理数据,算是最基础入门大数据的岗位吧,个人觉得前期比较适合非科班或者学历不高的同学去作为起点去接触大数据,薪资水平起点也不是很低,在一线城是里面1w+还是有的。
如何学习?作为小白,如果你想从事大数据,我个人认为你的学习路线开端都应该是数据库语言(其中包含 关系型数据库(Mysql、Oracle 和非关系型数据库(Redis, MongoDB)),以上只是这些数据库种类的一部分,个人认为自学阶段分别懂1-2种就应该足够了,尤其像非关系型数据库,后面你做项目的时候都会涉及到,所以sql和nosql语言这些是基础必会的,不用讲道理的那种会。这可能也是绝大多数人没有注意到的,而是选择从网上的hadoop教程开始出发,以至于连数据库的基本概念还没悟懂,就去直接上手hadoop,虽然从我学习过程中感觉它们之间没有什么技术上的联系,但是在理解上还是会有偏差,所以你有了基础数据库的知识再去开始hadoop,个人认为会是一个很好的效果。毕竟如果你不会数据库语言,你在后面学spark还是hive基本上还是要从头去学了,这样会导致适得其反。
有了一定的数据库基础,针对每个岗位的职位要求,再去强化学习每个部分。
如果你想从事数据中台,你基本的学习路线是 先把所有的hadoop的生态圈学习一遍,再这里我主要帮你们罗列几个(hadoop\spark\flink\kafka\hive\zookeeper等 ),看着挺多,挺吓人,其实看起来貌似也不多,除了hadoop视频很长,其他都算一般,毕竟我个人觉得做数据中台的,像计算引擎(spark、hive、flink)里面的那些实操可能现阶段你不需要掌握的很好,但是关于hadoop、kafka这些底层的原理,甚至涉及到源码都需要深入去了解。额,关于源码看不懂在正常不过了,所以你能做的就是能懂一点是一点,基本上面试过程中能表现出来的不是一点都没看就行了。所以你如果求职这个岗位,基本上在我面试过程中来看,问的都是hadoop、kafak底层这些还有java系列八股文。
如果你想从事数据仓库,你基本的学习路线是也是先把主流的框架学习一遍,参照上面,但是你需要重点掌握的是hive\spark\flink里面的实操,因为无论是后面你需要做的数仓项目还是面试过程中可能出的面试题基本上都是跟这些来出的,可能是让你用spark写一个简单需求等等,所以想做数仓的人基本上是 学完生态圈直接去做数仓项目,我相信在做数仓项目的时候你能把前面很多忘记的知识都补起来了,基本上你有了一个自己实操过的数仓项目能在你面试过程中让面试官不怎么想去问你八股文,而是更多的跟你聊项目。
关于推荐算法岗我目前没有较好的推荐,因为如果你有做算法的能力,其实大数据那些框架貌似只是锦上添花,所以无需去推荐学习什么。而最后提到的BI\ETL岗其实也挺适合一些学历和非科班的同学,因为它们的要求和门槛相对很低很多,从最基础的sql开始学下,然后层层递进,相信你以后也会接触到更多深层次的大数据知识。
今天的分享到此结束,啰里啰唆的说了很多,也希望能帮助到有疑惑的同学,后期我也会继续帮同学解答问题,也尝试着整理出一些有用的学习资料出来。还有疑问的同学,可以关注 林同学教你学大数据 来私聊我们,为了解答更多的疑惑。
#学习路径#