首页 / 大数据
#

大数据

#
571349次浏览 5651人互动
此刻你想和大家分享什么
热门 最新
入行大数据开发,需要的必备技能
从25年2月到现在,接触大数据开发已经有一年了,从MySQL,orcal,到flink首先就是写SQL,毕竟大家大部分都是SQLboy,SQLgirl,SQL是基础,可以在力扣牛客上多刷题。手撕常考!数开作为技术岗中最贴近业务的岗位,理解业务过程并进行数仓建模是最重要的一部分建模这块主要涉及,指标维度建设,数仓分层,讲解项目结合业务来讲.技术栈主要分离线和实时,实时门槛工资相对高一点,但应用场景比离线少很多,离线是数仓的基础。大数据技术栈主要是Hadoop生态圈,分布式的一些东西,也就是八股基础的得会,得理解整个架构运作流程,光背是记不住的Hadoop,hive,spark离线最核心的技术栈,也是八股最常考的,实时主要是spark,flink其次是一些数据处理框架kafka,etl转换工具知道一些,怎么用的大数据的框架搭起来比较麻烦,时间赶的不建议亲自搭环境,理解项目业务过程,这个项目做了什么,整个数据链路能讲清楚即可。技术栈的一些相关学习渠道,博主是在B站上找视频学的,也够用,时间赶学重点就行,结合八股来看。最后是算法手撕,本人算法很烂,除了大厂基本不考这个。出的题一般比较简单,会hot100就行个人经验来看,简历上有了实时项目,很少问Hadoop八股,更偏重spark和flink。项目还是以离线为主。实习发现实时数据只占很少一部分,离线是底盘有了实习经历就不咋问项目了
点赞 评论 收藏
分享
百度数据工程拷打
又是超过一小时的拷打,感觉这次挺综合的,八股、语言、大数据全都问了一遍1. 项目拷打,主要问我的项目为什么采用Hive Transform这种比较小众的方案,我的回答感觉他还是比较满意的2. 简述至少3种常见的排序算法,时间复杂度,稳定性3. 关系型数据库的索引的常用数据结构是?选择这种数据结构的原因是?4. MySQL中什么时候会导致索引失效?5. Java线程安全的数据结构有哪些?6. ConcurrentHashMap是怎么实现的?相比于在直接在HashMap外边加锁有什么区别?7. HashMap的key可以是什么类型?有什么要求?8. 处理金额相关的数据的时候,应该如何存储?在Java中和MySQL中应该选择什么数据类型?9. Linux下如何用一条命令统计某个目录下各个子目录的占用空间大小?10. 如果把Linux换成HDFS呢?如何统计?11. 对于一个超大的HDFS系统,会有什么性能风险?有什么优化手段?12. Spark的并发度是如何控制的?在一个任务中什么情况会导致并发度变化?13. 考虑以下场景:某电商网站有一个用户表(用户id,用户所在城市)和一个订单表(订单id,下单用户id,订单金额),请(1)统计总销售额前十的城市和这些城市对应的销售额(2)统计总销售额在10万元至20万元之间的城市14. 一个表有年、月、pv三个列,要求写行专列代码,转成年、一月、二月、三月……
查看14道真题和解析
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务