干货满满!大数据核心101问

找大数据工作八股到底要背到什么程度?

首先就是不要死记硬背,要理解记忆,弄懂其中的细节;其次就是找到面试重点,因为你面试完很多场后会发现,经常被问到的题目就那些!

如果你还没有参加过面试或者不知道大数据面试重点有哪些,我这里整理了一份面试必背的101道大数据题目,一定会对你有所帮助

  1. HDFS的架构
  2. HDFS的读写流程
  3. 小文件过多有什么危害,你知道的解决办法有哪些
  4. Secondary NameNode 了解吗,它的工作机制是怎样的
  5. 简述MapReduce整个流程
  6. join原理
  7. yarn 的任务提交流程是怎样的
  8. 简述Hadoop1.0 2.0 3.0区别
  9. 简述什么是CAP理论,zookeeper满足CAP的哪两个
  10. zookeeper集群的节点数为什么建议奇数台
  11. Paxos算法
  12. Zab协议
  13. 简述flume基础架构
  14. 请说一下你提到的几种source的不同点
  15. flume采集数据会丢失吗
  16. 简述kafka的架构
  17. 简述kafka的分区策略
  18. kafka是如何保证数据不丢失和数据不重复
  19. kafka中的数据是有序的吗,如何保证有序的呢
  20. 简述kafka消息的存储机制
  21. kafka的数据是放在磁盘上还是内存上,为什么速度会快
  22. kafka消费方式
  23. HBase和hive的区别
  24. 简述HBase的读写流程
  25. HBase在写过程中的region的split时机
  26. HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别
  27. 热点现象怎么产生的,以及解决方法有哪些
  28. 说一下HBase 的 rowkey 设计原则
  29. 简述hive
  30. hive和传统数据库之间的区别
  31. hive的内部表和外部表的区别
  32. hive的join底层实现
  33. Order By和Sort By的区别
  34. 行转列和列转行函数
  35. 自定义过UDF、UDTF函数吗
  36. hive小文件过多怎么办
  37. Hive优化
  38. 简述hadoop 和 spark 的不同点(为什么spark更快)
  39. 简述spark的shuffle过程
  40. spark的作业运行流程是怎么样的
  41. 你知道Application、Job、Stage、Task他们之间的关系吗
  42. Spark常见的算子介绍一下(10个以上)
  43. 简述groupByKey和reduceByKey的区别
  44. 宽依赖和窄依赖之间的区别
  45. spark为什么需要RDD持久化,持久化的方式有哪几种,他们之间的区别是什么
  46. spark调优
  47. sparksql的三种join实现
  48. 简单介绍下sparkstreaming
  49. 简述SparkStreaming窗口函数的原理
  50. 简单介绍一下Flink
  51. Flink和SparkStreaming区别
  52. 简述Flink运行流程(基于Yarn)
  53. Connect算子和Union算子的区别
  54. Flink的时间语义有哪几种 *
  55. 谈一谈你对watermark的理解
  56. Flink对于迟到或者乱序数据是怎么处理的
  57. Flink中,有哪几种类型的状态,你知道状态后端吗
  58. Flink 是如何保证 Exactly-once 语义的
  59. java的深拷贝和浅拷贝的区别
  60. java中==和equals的区别
  61. String和StringBuffer、StringBuilder的区别
  62. 简述面向对象三大特征
  63. java中方法重载和重写的区别
  64. 集合之间的继承关系
  65. ArrayList和LinkedList区别
  66. ArrayList扩容过程
  67. HashMap底层实现
  68. HashMap扩容过程
  69. ConcurrentHashMap原理
  70. java反射机制
  71. 异常体系
  72. 设计模式
  73. JVM一个类的加载过程
  74. JVM内存结构
  75. JVM中的垃圾回收算法
  76. JVM垃圾收集器
  77. java实现多线程有几种方式
  78. 线程池相关内容
  79. synchronized 的原理
  80. OSI七层模型
  81. TCP连接管理
  82. TCP是如何做到可靠传输的
  83. TCP和UDP的区别
  84. 浏览器输入URL到显示页面的过程
  85. 进程和线程的区别
  86. 什么是死锁以及死锁的四个条件
  87. 页面置换算法
  88. mysql的索引结构
  89. 简述事务
  90. 数据库事务并发会引发哪些问题
  91. 事务的四个隔离级别有哪些
  92. MVCC讲一下(怎么实现)
  93. 为什么要对数据仓库分层
  94. 数据仓库建模的方法有哪些
  95. 维度建模有哪几种模型
  96. 维度建模中表的类型
  97. 事实表的设计过程
  98. 同时在线问题
  99. 最大连续登陆的最大天数问题
  100. 留存问题
  101. 数据倾斜
#数据人的面试交流地##找工作八股要背到什么程度?#
大数据开发面试笔记 文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务