大数据开发学习路线指南(本人亲测)

    以下是本人在大数据方向的技术栈学习路线,另外还有诸如HBase、Kylin、实时数仓项目、数据湖项目、湖仓一体等。下面列出的是基本所必须掌握的内容。对于项目方面,建议先离线后实时开发的学习,再之后便是数据湖等项目。

    另外推荐可以经常翻看《大数据之路》这本书,里面涉及到的理论和企业中的白皮书基本一样。平常也可以多翻看各个公司公开分享的技术文章,源码等。类似阿里的学习文档、美团的技术文档等,在没有实际生产经验时可以了解各个场景下技术选型、底层调优、内存调整、资源配置、数据治理等各个重要环节和内容。

1、Java:JAVA SE、JVM、JUC

(刚开始只需要看Java基础就可以了,不需要学习一些web框架,因为不管是源码二次开发,UDF开发,还是数仓都不需要用到这些框架(除了平台开发之外),像Spring这些web框架,在学习完所有的大数据框架之后,找工作之前如果还有时间,可以去学一学这些框架【加分项】)

2、Linux+Shell

3、Git、Maven(了解会用,有印象,如果需要使用能快速学习上手使用即可)

4、Hadoop(HDFS,MapReduce,Yarn)

5、Zookeeper

6、Hadoop高可用(了解即可)

7、Hive(重点,需要熟练了解原理,并且会写HQL,以及一些优化,是基础)

8、Spark(大部分公司都是写SparkSQL,并且调优,需要明白底层原理,内存结构,SparkUI等)

9、Flume

10、Kafka(时间紧张的话,可以先放一放,和Flink一起学,kafka+Flink+Spark是处理实时数据的)

11、Maxwell、DataX、Dolphinscheduler(项目中数据同步、模拟日常调度工作)

12、sgg电商数仓x.0(跟着做完这个项目,就知道什么是数仓,什么是维度模型,什么是指标等等,以及生产中一些内容)

13、Flink

14、MPP架构(类似Doris、Clickhouse)

15、实时数仓项目

16、数据治理

17、数据湖、湖仓一体

18、刷算法、刷sql、刷场景题
#大数据开发##面试##数据人的面试交流地##秋招#
全部评论
佬,怎么准备面试呢,主要是面试题求教您怎么准备的?
1 回复 分享
发布于 11-09 13:53 贵州
佬,想请问下项目的话有哪些推荐的吗,找不到合适的项目,都在说sgg的项目烂大街了,但我又不知道去哪里找
点赞 回复 分享
发布于 11-26 20:42 重庆
大佬,秋招有着落了嘛
点赞 回复 分享
发布于 11-07 11:52 广东
您好佬,有跟什么课吗,现在开始学到春招可以学完吗
点赞 回复 分享
发布于 10-22 14:48 广东

相关推荐

1.对 Hadoop 各组件之间通信所使用的 RPC协议的具体内容2.Hadoop 中读数据的完整流程(包括客户端发起请求、与 NameNode 交互、与 DataNode交互等各环节)3.在数据传输过程中,若 DataNode 突然挂掉,Hadoop 系统会如何处理(包括任务重试、数据副本恢复等机制)4.HBase 源码的核心模块、关键类及底层实现窪捞轶货嶍瑛冶辑(如数据存储、读写流程等相关源码细节)5.在 HBase 中构建二级索引时,通过何种方式或机制保证索引数据与原始数据的一致性(如事务控制、同步更新策略等6.JVM 的具体架构(包括程序计数器、方法区虚拟机栈、本地方法栈、堆等组成部分);堆内存的划分的原理及适用场景;以及平时实际工作中是否会调整GC算法调整的依据是什么7.JVM 参数中,-Xms(初始堆大小)和-Xmx(最大堆大小)仅设置其中一个,与同时设置两个且值相同的情况下,对 JVM 运行产生的具体区别8.如何通过命令或工具查看当前 Java 进程中内存各代(新生代的 Eden 区、Survivor区,老年代等)的内存占比情况9.用于查看 Java 进程中线程堆栈信息的具体命令(如 jstack 等)及使用方法10.如何查看 Java 进程中某个对象的具体大小包括对象本身及引用的对象所占用的内存),可使用的命令或工具及操作步骤11.排查堆内存泄露的方法,除了将堆内存Dump 出来用MAT(Memory AnalyzerTO01)分析之外,还有哪些更简单直接的排查方式
查看11道真题和解析
点赞 评论 收藏
分享
评论
3
13
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务