首页 / 大数据开发
#

大数据开发

#
309116次浏览 3868人互动
此刻你想和大家分享什么
热门 最新
入行大数据开发,需要的必备技能
从25年2月到现在,接触大数据开发已经有一年了,从MySQL,orcal,到flink首先就是写SQL,毕竟大家大部分都是SQLboy,SQLgirl,SQL是基础,可以在力扣牛客上多刷题。手撕常考!数开作为技术岗中最贴近业务的岗位,理解业务过程并进行数仓建模是最重要的一部分建模这块主要涉及,指标维度建设,数仓分层,讲解项目结合业务来讲.技术栈主要分离线和实时,实时门槛工资相对高一点,但应用场景比离线少很多,离线是数仓的基础。大数据技术栈主要是Hadoop生态圈,分布式的一些东西,也就是八股基础的得会,得理解整个架构运作流程,光背是记不住的Hadoop,hive,spark离线最核心的技术栈,也是八股最常考的,实时主要是spark,flink其次是一些数据处理框架kafka,etl转换工具知道一些,怎么用的大数据的框架搭起来比较麻烦,时间赶的不建议亲自搭环境,理解项目业务过程,这个项目做了什么,整个数据链路能讲清楚即可。技术栈的一些相关学习渠道,博主是在B站上找视频学的,也够用,时间赶学重点就行,结合八股来看。最后是算法手撕,本人算法很烂,除了大厂基本不考这个。出的题一般比较简单,会hot100就行个人经验来看,简历上有了实时项目,很少问Hadoop八股,更偏重spark和flink。项目还是以离线为主。实习发现实时数据只占很少一部分,离线是底盘有了实习经历就不咋问项目了
点赞 评论 收藏
分享
大数据开发学习路线指南(本人亲测)
以下是本人在大数据方向的技术栈学习路线,另外还有诸如HBase、Kylin、实时数仓项目、数据湖项目、湖仓一体等。下面列出的是基本所必须掌握的内容。对于项目方面,建议先离线后实时开发的学习,再之后便是数据湖等项目。另外推荐可以经常翻看《大数据之路》这本书,里面涉及到的理论和企业中的白皮书基本一样。平常也可以多翻看各个公司公开分享的技术文章,源码等。类似阿里的学习文档、美团的技术文档等,在没有实际生产经验时可以了解各个场景下技术选型、底层调优、内存调整、资源配置、数据治理等各个重要环节和内容。1、Java:JAVA SE、JVM、JUC(刚开始只需要看Java基础就可以了,不需要学习一些web框架,因为不管是源码二次开发,UDF开发,还是数仓都不需要用到这些框架(除了平台开发之外),像Spring这些web框架,在学习完所有的大数据框架之后,找工作之前如果还有时间,可以去学一学这些框架【加分项】)2、Linux+Shell3、Git、Maven(了解会用,有印象,如果需要使用能快速学习上手使用即可)4、Hadoop(HDFS,MapReduce,Yarn)5、Zookeeper6、Hadoop高可用(了解即可)7、Hive(重点,需要熟练了解原理,并且会写HQL,以及一些优化,是基础)8、Spark(大部分公司都是写SparkSQL,并且调优,需要明白底层原理,内存结构,SparkUI等)9、Flume10、Kafka(时间紧张的话,可以先放一放,和Flink一起学,kafka+Flink+Spark是处理实时数据的)11、Maxwell、DataX、Dolphinscheduler(项目中数据同步、模拟日常调度工作)12、sgg电商数仓x.0(跟着做完这个项目,就知道什么是数仓,什么是维度模型,什么是指标等等,以及生产中一些内容)13、Flink14、MPP架构(类似Doris、Clickhouse)15、实时数仓项目16、数据治理17、数据湖、湖仓一体18、刷算法、刷sql、刷场景题
点赞 评论 收藏
分享
土木老哥想挑战一下自己的软肋
点赞 评论 收藏
分享
2024-04-28 11:59
已编辑
河北科技大学 大数据开发工程师
小米大数据一面
1.自我介绍2.熟悉flink还是spark答:flink3.介绍下flink架构吧答:这里越深越好,我就讲到了flink的jobmanager(dispathcer,jobmaster)和taskmanager4.flink有哪些算子?答:map,flatmap,filter,window,union等,RichFunction提供生命周期open close,上下文环境。5.flink你知道有哪些窗口吗?计数窗口能介绍下吗?答:时间窗口有滚动滑动会话,计数窗口有滚动滑动。6.你知道窗口什么时候触发吗?答:讲了一下窗口触发器trigger7.你能介绍下flink有几种窗口触发器吗?底层怎么实现的。答:讲了一下事件时间触发器和处理时间触发器的原理。8.假如flink窗口突然不触发了,你怎么排查。答:这里我答了一下排查上游其中一个流是否断流,如果其中一条流断流可以设置withIdleness空闲时间,让窗口的最小水位线机制去掉那个断流的依赖,靠另外的流触发计算。这里面试官提了一个场景,如果小米商城半夜就是没人买东西或者数据量很小导致水位线不能及时更新,(就是每条流都没数据)那你该怎么触发呢?利用窗口触发器ProcessingTimeoutTrigger9.口述一道sparksql题10.sparksql优化答:(1)sort by 代替 order by,需要结合distribute by使用。(2)count(distinct)优化(3)列裁剪(4)谓词下推(5)优化MAPJOIN阈值。(6)定期合并小文件,防止maptask数量过多(7)多用explain看执行计划,避免笛卡尔积等意外情况11.执行计划怎么看每个stage是根据shuffle切分,执行计划会写上具体的操作符和数据量和JOIN规则。12.distrubute by 会发生shuffle吗?根据什么字段distribute by? 这个和cluster by的区别是什么?13.反问:(1)小米数仓具体是做什么数据?(2)为什么岗位介绍上写了机器学习?面试官说这个有专门团队去做,跟数仓关系不大牛客字数限制,答案写的有点简略小米面试官的技术感觉很强,态度好,体验很不错,希望以后有机会能进吧。
kathyr_:八股轰炸啊,佬这个是春招还是实习
查看10道真题和解析
点赞 评论 收藏
分享
携程数开凉面(三面已挂)
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务