大数据学习路线

个人学习路线,望各位大佬指正,不喜勿喷:

一、前言(基础):

| 编程基础四大件

| 这根学什么语言、后续从事什么编程方向均无关,只要是做编程开发,这四个计算机基础就是无法避开的,这基础四大件真的比编程语言还重要!!!

数据结构和算法

可以说这个直接决定了⾯试的成败!⼏种基础数据结构类型得烂熟于⼼,⽐如:字符串、链表、⼆叉树、堆、栈、队列、哈希等;基

基本的⼏⼤算法也要了如指掌,⽐如查找、排序、动态规划、分治等等。建议LeetCode多刷题。

参考资料: 《⼤话数据结构》、《算法》、《剑指offer》、《LeetCode刷题》等

计算机网络

此处的计算机⽹络指的就是TCP/IP协议栈,可以说它是当下互联⽹通信的基⽯,⽆论如何⼀定要对TCP/IP的协议栈了如指掌,主要就是学习和掌握原理,包括:ARP协议、IP协议、ICMP协议、TCP和UDP协议、DNS协议、HTTP协议、HTTPS协议。

参考书籍: 《TCP/IP详解》等

操作系统

该部分重点包括:进程和线程的相关原理(原⼦性、并发、锁)、内存相关原理(内存分布、内存调度)

参考书籍:《深⼊理解计算机系统》等

设计模式

倒不需要23种设计模式全部记住,常见的几个如:单例模式、⼯⼚模式、代理模式、策略模式、模板⽅法模式建议熟练于心。

参考书籍:《⼤话设计模式》、《设计模式之禅》等

二、语言基础

语言

Java

语言基础

JVM虚拟机

并发/多线程编程

Scala

基于Java衍生出的编程语言,在大数据行业使用较为广泛

基本开发工具

Linux操作系统

服务器使用最多的操作系统内核

SSH终端

shell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。

IDEA

IDEA 全称 IntelliJ IDEA,是java编程语言的集成开发环境。IntelliJ在业界被公认为最好的Java开发工具,尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能可以说是超常的。

Git

是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

Maven

Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。

三、大数据组件学习

Hadoop(★★★★★)

Hadoop是由一个Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,广义上来说,Hadoop通常是指一个更加广泛的概念--Hadoop生态圈。

Sqoop

Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Zookeeper

它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

Hive(★★★★★)

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。

Flume

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

Kafka(★★★★★)

Kafka是一种高吞吐量的分布式发布订阅消息系统;

HBase

HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

Spark(★★★★)

Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

Flink(★★★)

Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

四、项目

离线数仓

数据采集

数仓系统搭建

数据可视化

......

实时数仓

五、实习

| 完成了上述部分80%左右的学习即可开始准备实习

八股文

数据结构/算法

六、最后

| 个人认为学习途中非常有意义的事

1、坚定的信念

2、制定任务和计划

3、持续的激励及正向反馈很重要

4、总结与反思

#大数据暑期实习##大数据##大数据学习路线#
全部评论
写的真的好详细 太贴心拉
2 回复 分享
发布于 2023-02-20 13:21 江苏
为什么我没有早点刷到这篇帖子哭哭
2 回复 分享
发布于 2023-02-20 12:30 湖南
这些需要学多久
1 回复 分享
发布于 2023-02-27 15:27 广东
请教佬实时数仓的项目在哪里找呢
点赞 回复 分享
发布于 2025-04-18 14:19 江苏
大数据的八股文去哪里看啊?哪里的全一些
点赞 回复 分享
发布于 2024-04-13 03:34 宁夏
老哥如果时间不足的话,做离线数仓还是做实时数仓比较好
点赞 回复 分享
发布于 2023-06-01 02:05 广东
可以
点赞 回复 分享
发布于 2023-04-17 13:03 浙江

相关推荐

北京春招最大的特点:赛道分化极其严重。有人挤破头进互联网,面试挂了一轮又一轮;有人转向硬科技,已经拿了两个offer;有人盯着央企国企,虽然慢但心里踏实。今天不列长清单,只告诉你各赛道的真实竞争烈度,以及现在该选哪个。📊 北京春招赛道热度分析赛道一:互联网大厂(🔥🔥🔥🔥🔥)▪️ 代表:字节、快手、京东、百度▪️ 现状:一个岗位几千份简历,HR看你不超10秒▪️ 适合:学历强、有大厂实习、能抗压▪️ 建议:别只盯着这一条路,给自己备选赛道二:硬科技/芯片/AI(🔥🔥🔥)▪️ 代表:联发科、瑞芯微、阶跃星辰、极智嘉▪️ 现状:政策红利,懂的人还没那么多▪️ 适合:理工科、愿深耕技术▪️ 建议:被低估的赛道,竞争比互联网小,薪资不差赛道三:金融/咨询(🔥🔥🔥🔥)▪️ 代表:中国银河、国金证券、惠升基金、灼识咨询▪️ 现状:名校党扎堆,看重学历和实习▪️ 适合:经管/金融背景▪️ 建议:简历要硬,提前准备行研作品赛道四:国企/央企/研究院(🔥🔥)▪️ 代表:电信云研究院、中国资源循环集团、中国振华▪️ 现状:流程慢但需求稳定,有户口希望▪️ 适合:求稳、要户口、专业对口▪️ 建议:现在投刚好(4-5月截止),材料要全赛道五:外企/出海(🔥🔥)▪️ 代表:SHEIN、安克创新、强生、GE▪️ 现状:WLB相对好,但名额有限▪️ 适合:英语好、有国际化视野▪️ 建议:官网+领英双通道,英语简历要精📌 现在这个时间点,该选哪个赛道?▪️ 背景强:互联网+金融双线投,别all in一个▪️ 理工科:硬科技是红利期,抓紧冲▪️ 求稳/要户口:国企央企现在投刚好▪️ 英语好:外企/出海值得一试⚠️ 一个提醒北京机会多,但别在最挤的赛道硬卷。换条赛道,可能海阔天空。投递小tips:互联网:招聘软件+官网双通道硬科技:盯紧官网,专业对口很重要金融:行研作品是加分项国企央企:材料要全(成绩单、证书等)外企:英语简历精修+领英同步投整理有《26春招汇总表》,各赛道公司+岗位+截止状态+投递链接,每日更新。26届校招 赛道选择
今天你投了哪些公司?
点赞 评论 收藏
分享
03-19 21:57
已编辑
香港科技大学 C++
1. AML负责人:那到最后了,就是跟大家讲了我们的业务发展历程、我们的人才观,以及为什么我们认为未来还有非常非常大的机会。我们认为这是一个journey,这个journey就跟爬山一样,你只是爬到半程,是或者前半程,你的最低最高的山都放在前面。我们的目标是不仅要达到那个山峰,最重要的是在过程中一起去享受欣赏沿途的风景。所以呢,今天我特别高兴以学长身份还有一个业务leader的身份跟大家进行交流。我其实知道在校招季,包括实习生大家有非常非常多的机会,那我希望就是,大家在做选择的时候,知道字节跳动是一家什么样的公司。我们也非常非常欢迎,大家能够加入自己,包括我的团队。GNP叫global product technology啊,就在那里,就是一个小广告,那个啊,欢迎大家申请,我特别希望在字节能够看到大家,谢谢。2.学长圆桌那下面稍微占用一分钟时间,给大家讲一下今年我们的一些招聘的关键信息。在此之前呢,我也想澄清一下学长的话,那个我也是北大毕业的,我是05元培的同学。然后,我主要想说一下,就是我当时为什么就他刚才讲的话,让我想到了就是我当时为什么加入字节跳动,我是2020年加入的,已经6年了。当时我本来在另外一家公司,然后面到一个字节跳动的机会,我就微信请教了我的一个前辈。我就打字跟他说,我拿了一个字节的offer,我本来想接着跟他说是哪个部门的什么样的岗位做什么事情,然后我下一句话还没发出去,他直接给我回了一个:去!。我说,你们你么都不听一听具体是干什么的吗?他说你现在要登上一艘火箭,你先不要管,你坐在那,你先上去再说。当时这句话非常非常的打动我,然后我现在回想起来,我还很感谢那一前辈当时给了我这样的一句话,包括我现在在招人的时候,我仍然想对大家说同样的话,字节跳动加入字节跳动最好的时间是10年前,其次是现在。那现在我们在招什么样的岗位呢?给大家介绍一下,刚才也听过有讲到我们有非常非常多的业务,包括在那个大视墙上,你可以看得到,那其实这些业务目前都有校招和实习生的岗位开放。比如说刚才提到的AI和探索的这些业务,大家一会可以没没体验到的一会儿可以去那边继续体验。包括我们的剪映即梦豆包还有Pico。然后,我们传统的toC的信息服务类的业务,包括这个头条、抖音、番茄、红果这个什么汽水,也包括我们海外的非常大。大家看到的海外Tiktok只占了一个标,但其实它的体量甚至比国内还要更大。然后我们的toB的服务包括火山、飞书、巨量引擎以及海外的PS断,以及我们的交易类的服务,比如说抖音的电商、抖音的生活服务等等,这些业务都有岗位。大家可能在现场看到的只是一部分的岗位,那如果在现场看到了感兴趣的岗位,欢迎大家去,因为我们的HR会在旁边跟大家一来交流。如果现场没有大家感兴趣的岗位,也没有关系,也可以把自己的简历或者自己的求职意向给到我或者我们团队的同学。我们也会帮助大家做一些鉴别。然后岗位有哪些呢?就我不一一念吧,我们几乎所有的岗位都有在招聘,包括研发的,算法工程,然后产品,运营设计等等里面的具体的细分因为我们业务非常的多,这个大家可以详细去了解。那也有市场营销,职能比如说HR我们也在招嘛,然后游戏这些方向。然后,目前这一届的就是今天的主要招聘的方向是两个,一个是27届毕业的ByteIntern的招聘。我们的ByteIntern呢,今年是史上最大的一次转正实习生的招聘。转正实习生意思就是这些同学招进来,我们就是奔着秋招的转正去的。所以,我们的招聘标准,我们的整个在实习期的这个过程,人才培养都人跟校招都是同样的标准。然后这个项目,我们去年的转正率已经超过了一半,就意味着两位实习生当中至少有一位可以留用。都在公司,然后这今年我们的规模比去年还要大,整体应该是有7000左右的这个offer要发出去,所以非常非常欢迎大家踊跃的投递。然后在这个offer里面呢,首先研发是我们招聘量最大的这个岗位类型。但是呢,其实今年我们在产品安定职能上其实所有的需求都有在增加,而且呢,有越来越多的岗位会跟AI有很多的关系,比如说,刚才有同学问,除了豆包,我们还有哪些同学在做?我们AI其实很多非常非常的多,包括我们在内边有很多AI相关的其他类型的产品,甚至包括在我们原本的业务当中,也会有很多组合跟AI能够做结合的地方。甚至你哪怕就是正常做个做个做一个码农吧,能我们现在有非常非常多的Code已经是用AI写出来的。然后招聘的流程呢,首先是大家通过这个官网统计或者是内推都可以,或者在现场是吧,把这个简历递到我们的HR手里。然后呢,有一些岗位是有笔试的,也有一些岗位没有这个,会根据这个岗位的要求会给那个大家安排。然后结束之后会有面试。面试呢,主要是以线上的方式进行的,就是大家会跟你约一个线上的视频面试的时间,但是也有一常呢,我们会安排一些线下的提供面试,这个也会就大家可一去进行了。然后面试通过之后,我们会随时发放offer。虽然大部分的同学可能加入的时间都是在暑假,但如果你今天有时间,一有问题也是欢迎你尽早报名,能够学到更多的东西,然后同时呢,我们在2026届的毕业生,还有部分校招的岗位和全职的岗位仍然在招。虽然我们大部分岗位今年已经招了不少了,但是因为HC又增加了,所以呢,这个八大职位的类别都是。有在招聘通过算法工程开发的这个销售运营系统一更新的,然后我们在今年的年初又发了新的机会。因为一些同学年初实习过了发现这个岗位不太合适,但今天大家可以重新再那个选择新的岗位来投递。所有以上说到的信息,大家都可以到官网选择这个校招的这个类目下面去查看。当然呢,如果有同学不是26或者27届的,我们也有非常多的日常实习可以提供,给大家提供锻炼的实践的机会。我其实经看到有一些同学在加入字节之前实习过好几段了,他可能从研一研二甚至更早就开始了。当然,我们不是让大家更卷,只是说如果大家要实习有非常多的机会开放,然后欢迎扫码关注我们的公众号招聘,然后小红书招聘字节君,抖音。我们日常的一些招聘信息,这样的一些活动,包括一些宣讲,还有个动态都会在这个上面去发布,大家可以关注一下。好的,那我的部分就到这里了,希望有回答到大家的问题。谢谢大家好,谢谢louyi 师姐,然后也再次感谢我们的lueyou师兄,两位师兄师姐。那接下来呢,我们因为之前跟大家报名有调研,很多同学都想说能不能在这个宣讲的场景见到更多一些师兄师姐,尤其师姐也是刚毕业的,然后类似于大家这样校招求职以及刚刚实习过的这样的一些经历。那我们也专门邀请了一些师兄师姐也是咱们北大的同学,邀请了四位的师兄师姐,也请大家可以先上台。那接下来这个环节呢,我们希望说,用师兄师姐真实的他们加入组织的,这个案例和目前工作的情况来跟大家去更进一步的去介绍,让大家去了解怎么在字节跳动不同职位方向,不同业务领域场景。大家到底在怎么样,做什么样的事情,以及我们有什么样的一些发展机会。那请我们的所有的师兄师姐可以上台,谢谢,可以请大家上来。3.那为什么我会选择去社招加入字节?我觉得几个方面的因素吧,就是第一个方面就是我认为一个公司的文化基因特别的重要,就是有一些公司他可能文化基因是从运营的视角出发的,有些公司是营销和销售出发的,或者有一些公司是产品出发的。那么有一些有一些销售文化比较重的公司,可能你进去了之后,大家就会去签军令状啊,然后或者就是像传销一样什么好你好,什么非常非常好,见到你很好,这种就是会让会让技术人感觉有点PTSD。
点赞 评论 收藏
分享
评论
60
346
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务