大数据学习路线

个人学习路线,望各位大佬指正,不喜勿喷:

一、前言(基础):

| 编程基础四大件

| 这根学什么语言、后续从事什么编程方向均无关,只要是做编程开发,这四个计算机基础就是无法避开的,这基础四大件真的比编程语言还重要!!!

数据结构和算法

可以说这个直接决定了⾯试的成败!⼏种基础数据结构类型得烂熟于⼼,⽐如:字符串、链表、⼆叉树、堆、栈、队列、哈希等;基

基本的⼏⼤算法也要了如指掌,⽐如查找、排序、动态规划、分治等等。建议LeetCode多刷题。

参考资料: 《⼤话数据结构》、《算法》、《剑指offer》、《LeetCode刷题》等

计算机网络

此处的计算机⽹络指的就是TCP/IP协议栈,可以说它是当下互联⽹通信的基⽯,⽆论如何⼀定要对TCP/IP的协议栈了如指掌,主要就是学习和掌握原理,包括:ARP协议、IP协议、ICMP协议、TCP和UDP协议、DNS协议、HTTP协议、HTTPS协议。

参考书籍: 《TCP/IP详解》等

操作系统

该部分重点包括:进程和线程的相关原理(原⼦性、并发、锁)、内存相关原理(内存分布、内存调度)

参考书籍:《深⼊理解计算机系统》等

设计模式

倒不需要23种设计模式全部记住,常见的几个如:单例模式、⼯⼚模式、代理模式、策略模式、模板⽅法模式建议熟练于心。

参考书籍:《⼤话设计模式》、《设计模式之禅》等

二、语言基础

语言

Java

语言基础

JVM虚拟机

并发/多线程编程

Scala

基于Java衍生出的编程语言,在大数据行业使用较为广泛

基本开发工具

Linux操作系统

服务器使用最多的操作系统内核

SSH终端

shell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。

IDEA

IDEA 全称 IntelliJ IDEA,是java编程语言的集成开发环境。IntelliJ在业界被公认为最好的Java开发工具,尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能可以说是超常的。

Git

是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。也是Linus Torvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。

Maven

Maven项目对象模型(POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件。

三、大数据组件学习

Hadoop(★★★★★)

Hadoop是由一个Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题,广义上来说,Hadoop通常是指一个更加广泛的概念--Hadoop生态圈。

Sqoop

Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Zookeeper

它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

Hive(★★★★★)

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。

Flume

Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

Kafka(★★★★★)

Kafka是一种高吞吐量的分布式发布订阅消息系统;

HBase

HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

Spark(★★★★)

Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

Flink(★★★)

Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

四、项目

离线数仓

数据采集

数仓系统搭建

数据可视化

......

实时数仓

五、实习

| 完成了上述部分80%左右的学习即可开始准备实习

八股文

数据结构/算法

六、最后

| 个人认为学习途中非常有意义的事

1、坚定的信念

2、制定任务和计划

3、持续的激励及正向反馈很重要

4、总结与反思

#大数据暑期实习##大数据##大数据学习路线#
全部评论
写的真的好详细 太贴心拉
2 回复 分享
发布于 2023-02-20 13:21 江苏
为什么我没有早点刷到这篇帖子哭哭
2 回复 分享
发布于 2023-02-20 12:30 湖南
这些需要学多久
1 回复 分享
发布于 2023-02-27 15:27 广东
请教佬实时数仓的项目在哪里找呢
点赞 回复 分享
发布于 04-18 14:19 江苏
大数据的八股文去哪里看啊?哪里的全一些
点赞 回复 分享
发布于 2024-04-13 03:34 宁夏
老哥如果时间不足的话,做离线数仓还是做实时数仓比较好
点赞 回复 分享
发布于 2023-06-01 02:05 广东
可以
点赞 回复 分享
发布于 2023-04-17 13:03 浙江

相关推荐

今天老师整理了大模型入门的几个学习步骤、目标和需要掌握的基础知识,供初学者快速掌握基本路径。1️⃣前置知识: Python 基础、 Linux 基础🌟学习内容1.熟练掌握 Python 语言,熟悉常用的Python 库和工具,如 NumPy 、 Pandas 、  Scikit - learn 、 PyTorch 等。2.具备 NLP 相关的基础知识,包括文本预处理、分词、词性标注等。3.对大模型有一定了解,包括Transformer 模型的结构和原理、基于注意力机制的自然语言处理技术等。2️⃣Step1:NLP相关基础知识🌟学习内容1.了解文本预处理、分词、词性标注、命名实体识别、词向量表示等基础知识。2.掌握机器学习中的数据预处理、特征提取、分类、回归等基础算法,并了解其在 NLP 领域的应用。3.了解大规模 NLP 任务中的常用技术和方法,如深度学习中的 Transformer 模型、 BERT 、 GPT 等。3️⃣Step2:GPT API 调用及 Prompt 设计🌟学习内容了解 GPT API 的调用方式和基本操作,熟悉 Prompt 设计技巧和要点,能够结合自己的任务调用 API 实现对应的任务代码。4️⃣Step3:模型微调( Fine - tuning )🌟学习内容了解常见的微调模型的基本流程和原理,熟悉数据集的构造、训练、评估等过程,能够独立构建 QA 对,在服务器上对模型进行微调。5️⃣Step4: RAG (外挂数据库)🌟学习内容RAG 作为目前最火的一个 LLM 落地方向,可以结合私有数据(表格、 word 、 txt 、 pdf 、数据库皆可)实现本地问答,且训练成本较低,可以快速实现效果。✴️有需要提升面试能力和辅导项目的同学可以后台联系我~
点赞 评论 收藏
分享
评论
57
327
分享

创作者周榜

更多
牛客网
牛客企业服务