首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
Patrickkkkk
大连理工大学 大数据开发工程师
发布于四川
关注
已关注
取消关注
码住
@来杯冰可乐叭:
数仓/数据开发-零基础入坑(小白学习路径)
烫
这段时间各大公司的春招陆续开始了,但是也有很多同学还在因为刚刚入坑或者还在纠结,对学习路径比较迷茫。(这也是去年的我)所以这边总结一下,一个面向面试的学习路径,后面也会补充上全面的学习路径。面向面试就是掌握到基本能应付暑期实习面试的基本技能和知识,足以在春招实习招聘中应对,但是如果要在秋招里乱杀还是得全面学习的哟[诶嘿]。1 计算机基础1.1 基础八股文《计算机组成原理》《数据结构》《操作系统》《计算机网络》这四门课程是计算机专业的必学,虽然在大数据开发/数仓开发的面试场景中80%的时候并不会问道相关的八股,但是部分大厂(字节、阿里、快手(这是我面试到的))还是会问一些基本知识比如:TCP&UDP、三次握手、四次挥手、http等,所以只要去找一些常见的问题背下来就好1.2 算法基础所谓的算法基础实际上就是数据结构、算法题,盯着牛客、LetCode去刷题就好,每天三道美滋滋,面试手撕不用怕。暑期实习能有个100-150道基本能cover实习面试,如果时间实在来不及直接去做“剑指offer”的系列题,容易碰到原题或者类似题。如果是秋招的话得有个300左右的题量,建议直接刷LetCode题库的前300,不论笔试还是面试都会原题。(一定要总结同类题思路!!!数组、动态规划、DFS、BFS等等)2 编程语言2.1 SQL如果是数仓、数开,SQL 是必备技能(SQL Boy/SQL Gril[牛泪]),笔试面试都会考到,建议直接到牛客刷题。这部分的SQL题要重视,不论是笔试还是面试手撕60%概率是SQL题,如果有一定基础建议直接刷牛客的大厂真题:这里面的SQL题难度基本够了,也比较全面,难度也符合到一些实际生产场景(强力推荐!!👍)2.2 Java&Scala由于很多大数据组件都是由Java编写,所以JAVA也是数开/数仓的基本技能,虽然在实际工作中用到JAVA并不多,大部分时候就是写个UDF等。不过,我们在面试中还是会以JavaSE的要求来提问,所以需要背的八股以及补充的也比较多。不过如果时间不够的话,建议直接背常见Java八股题(面向面试嘛)。但最最基础的还是得会写一些Java,所以建议大家刷Letcode用Java去练习。Spark和Flink的底层有Scala编写,而且相对而言Scala在部分场景较Java更符合大数据场景,所以偶尔用到,但是面试基本不会问到,浅学即可,不要投入太多时间。2.3 Python锦上添花,无也无妨。但是如果会用Python做一个深度学习、机器学习的模型(调包侠也行)在面试官那里会有一定加分,部分团队会有相关的工作,但是还是要保证基础。3 大数据组件大数据组件非常的多,如果是全面学习的话,建议按照尚硅谷的学习路径去进行。如果只是面向面试学这几个Hadoop、Kafka、ZooKeeper、Hive、Hbase、Spark、Mysql即可。但是如果是要做实时开发还需要补充Spark Streaming、Flink,此外全面的学习还需要有Azkaban(任务调度)、clickhouse(OLAP)、redis等组件。3.1 Hadoop数据存储基本上还是使用 HDFS。MapReduce 虽然使用较少,但其思想十分重要,必会,也是调优的基础。Yarn 调度非常常用,但面试中很少考到。常问:HDFS读写流程、MR流程、Shuffle流程3.2 Spark现在的离线计算引擎机会都是 Spark3.0引擎,很少用到 MapReduce 了,所以也是必会。需要掌握与 MapReduce 的区别。常问:spark作业提交流程、Spark宽窄依赖&血缘、spark的持久化&缓存机制、Spark和MR的区别、Sprak和MR的Shuffle的区别3.3 KafkaKafka作为发布订阅消息队列,基本也是常问的,哪怕在Java开发也常常会有kafka的问题:Kafka数据重复、Kafka消息数据积压,Kafka消费能力不足怎么处理?Kafka 零拷贝、Kafka高效读写数据问的频率相对其他几个较少,掌握核心原理即可3.4 MysqlMysql的涉及到数据库的基础知识,基本也是每次面试必问,而且问题常常会从数据库底层原理以知道sql调优常问:Mysql索引、数据库事务、四种隔离级别、MVCC、谓词下推、执行计划等等MySQL一定要多准备一些3.5 Hive作为构建数据仓库的工具,常常会从Hive延伸到数据仓库模型的问题,或者从hadoop的问题延伸到Hive来。有两种方式:Spark on Hive:写 Spark SQL,Spark 读取的数据源是 Hive。就是通过 Spark SQL,加载 Hive 的配置文件,获取到 Hive 的元数据信息。Spark SQL 获取到 Hive 的元数据信息之后就可以拿到 Hive 的所有表的数据。接下来就可以通过 Spark SQL 来操作 Hive 表中的数据。Hive on Spark:写 Hive SQL。Hive 将自己的 MapReduce 计算引擎替换为Spark,当我们执行 HiveSQL(HQL) 时底层不是将 HQL 转换为 MapReduce 任务,而是跑的 Spark 任务。常问问题:Hive的架构、HQL转成MR的流程、数据倾斜、小文件问题(前面两个需要扩展到hadoop和spark的数据倾斜和小文件)、Hive优化、Hive常用调优参数4 数仓模型数据仓库的原理作为数仓开发工程师的核心技能,绝对是我们的高频问题,基本99%的面试官都会提问到相关的问题。完整的数仓架构需要了解。建模理论(星型建模、ER 建模)需要了解。推荐看阿里的《大数据之路》,需要这本书的电子版可以私信我。其中最重要的是,对数据仓库的理解、数仓分层、为什么这么设计、维度建模(既然我单独写了这一部分,足以见得绝对是Top1的重要性)5 数据治理了解一下概念即可。实习招聘考的少,秋招考的多。包括元数据管理、数据质量、血缘等。6 项目经历学完上述内容后,那么必然需要一个数据仓库的项目来完善个人简历,还是推荐尚硅谷。数仓这块如果咱们自己很难有实际项目,这边给推荐两个。第一:B站尚硅谷,可以跟着视频做项目,离线和实时的都有,项目内容也比较贴近真实开发场景,坏处是做的人很多,烂大街。第二:github,找大数据开发的项目,含金量更好,但需要自己投入大量的时间。如果是暑期实习的话我这边建议还是做尚硅谷的项目,只要能吃透,应对实习面试够了。 项目讲解:STAR原则学完以上所有这些(面向面试),根据我个人的经验,大概会在40-60天,其实时间也不短。建议大家在学完Hadoop之后就可以开始投一些简历,然后通过面试去不断磨砺个人技术理解,愈战愈勇。再者,面试之后也会发现,其实知识的深度重要性大于广度,与其花很多时间去把整个大数据链路学完,不如完成基础内容,然后自己去实操去思考问题,再通过一定的面试技巧(简历引导、语言问题引导、面试节奏掌握)等,就可以很顺利的通过大部分的面试。最后!!祝大家都能在春招中拿到满意的Offer!希望能帮到大家!!
点赞 131
评论 52
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
01-22 13:32
叠纸游戏_UI美术设计(准入职员工)
叠纸游戏内推,叠纸游戏内推码
前端面试问题:1. 自我介绍2. 低代码平台Blocksuit方案,这个技术选型的逻辑3. 物料和数据源连接是用什么样的解决方案,还追了一下数据源的获取4. 团队规模,负责的具体内容,职责之类的5. 你认为前端工程化包括哪些方面?你具体做过哪些6. Git提交,你们有引入什么工具,检测方式来控制不规范提交7. 前端监控埋点方面有做过哪些吗8. 后面的职业规划9. 离职原因10. 排期和人手不够的情况,假设你作为leader,你怎么处理冲突?反问:1. 项目情况,技术栈2. 面试流程叠纸游戏2026校招启动叠纸游戏成立于2013年8月,是一家专注于内容创作的游戏公司。叠纸当前拥有暖暖系列和恋与系...
点赞
评论
收藏
分享
01-23 10:39
首都经济贸易大学 管理咨询
货拉拉又摊上大事了
根据央视财经的最新报道,1月21日国家市场监管总局将货拉拉列为综合整治“内卷式”竞争的典型案例予以通报。国家市场监管总局指出:网络货运头部平台货拉拉存在利用算法不合理压低货运价格、利用平台规则实施强制独家车贴等行为,损害公平竞争市场秩序和货车司机利益,导致竞争性平台跟随实施低价策略,加剧行业“内卷式”竞争,存在垄断风险。一方面,货拉拉通过“一口价”等低价产品,将货运价格压制在极低水平,导致一些短途订单的运费甚至连油费都覆盖不了;另一方面,货拉拉要求司机张贴独家车贴,并把这个作为接单优先权等考核条件,变相限制了司机多平台接单的自由,还加速了行业内卷。算法演变成平台私权市场份额过大并不是衡量货拉拉...
点赞
评论
收藏
分享
01-02 11:44
门头沟学院 C工程师
27届喜迎第一个offer
很感谢腾子给机会,迷茫了一整年,总算有结果了,还想问问有佬知道iegg部门如何吗
牛客74756930...:
贵了,人上人部门
点赞
评论
收藏
分享
2025-12-02 21:34
中南大学 Java
华为开奖15a,但是决定拒了
我这边应该算是华为第一批开奖的了,还是要11月底才开,不过今年的流程整体比去年确实要开得早,这一点还是值得表扬的。然后华为也确实很有诚意,给我这样bg的硕鼠开了15a,并且base地还是在杭州,应该是buff拉满了,但凡其他公司开的没这个高,and对象没签上海,可能真选择成为华孝子了。虽然很有诱惑力,但是这个15a的offer里面确实还是有猫腻的:1. 薪资构成是这样的,15a = (基本工资+绩效工资)*12 + 10w年终,虽然绩效工资hr说100%能拿满,年终大部分都能拿满,绩效工资能拿满我可能还选择相信,但10w年终还能拿满,这我就存疑了。反正看了一圈别家的公司报价都是报一般情况下能拿多少年终,比如美团0-6个月,就报3.5个月,但是华似乎是喜欢往最高了报,所以估计10w年终拿满应该也是极少数人。2. 公积金只交5%,并且缴纳基数还只是按基本工资交的,这里看似每个月到手的钱变多了,但是总体算下来,可能一年比别家就少拿1-2w。3. 月末周六要加班,可以选择调休或双倍加班费,并且平常应该也会加班,感觉不大会像hr说的124能8.30下班,35能5.30下班的,云计算bu强度应该还算比较好的,估计一般情况下9-9-5吧,但是不知道并入ict后会如何。4. 还有相关的业务线,听说8,9月份云计算bu内部已经调整了一波,好像还要并入ict下面了,感觉未来的不确定性也比较大。5. 华为的认可度应该比不过传统的互联网大厂,技术的前瞻性应该也比不过(个人看法)。6. 培养和升职,感觉美团可能更有说法,毕竟见到过1年升L6的,甚至还有两年升L7的,对华为的了解相对较少,只知道华为可能相对稳定一些?毕竟4年一签?综上,还是决定放弃华,准备去团吧,自己选的路,希望不会后悔吧。
变形钢筋:
这个薪资结构,年终奖是画大饼啊
OC/开奖
点赞
评论
收藏
分享
01-19 18:57
字节跳动_剪映_前端(实习员工)
3秒节孝子启动! (真心收简历内推快手)
时间线1.12 hr下午面完1.19 11点offer5个工作日, 每天都在问hr(有两个小姐姐都挺有耐心的) hhh虽然差点变成巨人观, 也是在明天入职快手前复活了总结: 给快手磕了几个头, 太对不起了, 然后各位牛爷爷们可以发下简历直推杭州快手电商.
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
1
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
实习产出如何包装?
9328
2
...
32岁程序员猝死,底薪3千要24h待岗
2904
3
...
【官方活动】牛客新春计划:给陌生人的一封信
2636
4
...
实习生怎么快速融入团队
2368
5
...
后端从0开始来得及吗
1399
6
...
27届实习全时间全方位大体指南
1350
7
...
20多岁最痛苦的年纪
1277
8
...
绷不住了,找了一个月实习嵌入式还找不到
1231
9
...
25届工作半年,想辞职了
1131
10
...
在咖啡店、家里、公司走廊哪里都可以来一场面试
1061
创作者周榜
更多
正在热议
更多
#
牛客十周岁生日快乐
#
206815次浏览
1932人参与
#
你觉得什么岗位会被AI替代
#
34917次浏览
232人参与
#
我和mentor的爱恨情仇
#
101705次浏览
922人参与
#
一人一个landing小技巧
#
143158次浏览
1498人参与
#
如果工作一直消耗情绪还要继续做吗
#
18108次浏览
83人参与
#
四大天坑是哪四家?
#
101663次浏览
235人参与
#
互联网公司评价
#
479808次浏览
4091人参与
#
机械人春招想让哪家公司来捞你?
#
377810次浏览
3127人参与
#
聊聊你的被动加班经历
#
4486次浏览
80人参与
#
在国企工作的人,躺平了吗?
#
392116次浏览
3951人参与
#
我的求职精神状态
#
422510次浏览
3075人参与
#
华为工作体验
#
289434次浏览
1376人参与
#
实习吐槽大会
#
404973次浏览
2168人参与
#
工作压力大怎么缓解
#
138937次浏览
1260人参与
#
找工作以来,你最看不惯__
#
17650次浏览
352人参与
#
你的mentor是什么样的人?
#
49284次浏览
705人参与
#
第一次找实习,我建议__
#
69314次浏览
841人参与
#
实习教会我的事
#
52216次浏览
413人参与
#
实习怎么做才有更好的产出
#
14083次浏览
263人参与
#
AI coding的好用工具分享
#
21746次浏览
409人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务