2025暑期实习-大数据开发面经-字节跳动-data-电商

一面 50分钟

  1. 自我介绍
  2. 你学过的大数据掌握的最好的是哪一个
  3. hive里面排序一般怎么使用的
  4. hive内部表和外部表的区别,外部表在什么场景下使用
  5. hive视图用过吗
  6. 你对维度和事实的理解
  7. 你说到了业务过程,谈谈对它的理解
  8. 你刚刚描述的是一个业务过程还是 多个业务过程
  9. 多个业务过程放到一张事实表的你举个例子
  10. 维度建模中 星型模型和雪花模型 之间的区别
  11. 缓慢变化维表如何处理呢
  12. 全量表的数据保存多久
  13. 那你们订单表是全量还是增量,你觉得增量是什么意思,那你们这边的数据保存多久呢
  14. 说一下订单表的设计过程 以及 表的分区含义
  15. 你前面提到了会进行维度退化,那么说一下订单表中有哪些维度退化属性
  16. 那你说一下你们数仓的一个全链路吧
  17. 我看你项目还写了一个实时的,你这个在哪看的
  18. 那说一下flink乱序事件处理的几种方式吧
  19. 抖音有一张流量表和一张交易表,分别是 table_a(mid, pv) 和 table_b(mid, gmv),如何将他们进行合并,数据倾斜如何处理
  20. 你想做什么方向

二面 35分钟

  1. 自我介绍
  2. 讲一下你的项目吧
  3. 挑一个你做的需求讲一下,你遇到的难点是什么
  4. 你知道维度建模的过程吗
  5. 你平时用什么语言多一点,回答java,然后问了一个string stringBuilder stringBuffer的区别
  6. HDFS写的流程,要是有一个datanode挂了怎么办
  7. kafka是如何保证数据不丢失和数据不重复,然后又说消费的时候呢
  8. spark的shuffle的过程
  9. 你可以对shuffle进行优化吗
  10. SQL题:table_a(date, uid, vid) 找出3月19号看不同视频数排名前五的uid 【最好不用distinct】

三面 leader 45分钟

  1. 自我介绍
  2. 一直在聊数仓项目 (建模基础,以及业务理解)
  3. 刷了一道算法题,主要就是 1-a 2-b ... 26-z,那么给你一个数值的字符串,问有多少中编码的方案,比如“12”,返回2(最后我没写出来,但是给出了动态规划的想法)

hr面 15分钟

  1. 自我介绍
  2. 你遇到过最大的问题是什么
  3. 你什么时候能来实习,实习多久(建议回答:立马入职,一直实习)

~~~还有一些常规的问题不记得了~~~

整体总结

  • 一面基本全是业务,二面就是项目八股文都有一点,三面基本就是项目
  • 数仓的面试还是比较偏向业务的和偏向数仓建模理论的,可能手撕算法比较少
#数据人的面试交流地##暑期实习##面试复盘#
大数据开发面试笔记 文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论
你好,请问三本,数据开发有机会吗,不要求大厂😭
点赞 回复 分享
发布于 06-13 22:55 浙江

相关推荐

05-25 17:39
湖南大学 Java
一面1、使用消息队列,如何避免重复消费;    生产者配置中启用了幂等性,kafka会为每一条消息分配唯一的序列号(Sequence Number)和生产者ID。Broker会拒绝重复的序号,确保同一分区内的消息不重复。消费者处理了消息会正确提交偏移量。2、mq主从复制,如果主节点挂了之后,会出现什么情况    主节点Leader挂掉之后,会立即触发选举机制,从该分区的其他从节点中选举一个新的Leader来接管,在选举新的Leader的过程中,可能会出现短暂的延迟,导致消费者和生产者无法正确向分区发送和消费消息,但是一般是短暂的时间几百毫秒或者几秒。如果原来的Leader节点只是暂时的故障,很快恢复,它会重新加入分区,成为Follower节点进行数据同步。如果原来的Leader节点无法回复或者挂掉的时间过长,新的Leader节点将继续承担分区的读写操作,而原来的Leader上未复制到新的Leader的数据可能会丢失。3、在java类中可以通过反射来访问一类的私有成员吗?    可以访问,可以通过getDeclaredFields方法获取类中所有声明的字段,包括私有字段,通过设置Field对象的setAccessible(true)方法取消java语言访问检查,从而可以访问并修改私有字段的值。4、开放题4.1有两个文件,一个文件A,大小200MB,文件B,大小10G,内存限制是265MB,求所有在文件A不在B的行。4.2给n个正整数,求最小的k个值,这里面n远大于k5、从输入一个页面到显示页面的过程5.1URL查询IP地址是通过什么协议    DNS协议5.2DNS是属于什么层的协议    DNS 属于应用层协议 :DNS 协议运行在 TCP/IP 协议栈的应用层,它使用 UDP 或 TCP 协议进行通信。UDP 通常用于简单的 DNS 查询,因为其速度快且开销小;而 TCP 则用于更复杂的 DNS 操作,如区域传输等。6、介绍一下操作系统的虚拟地址和物理地址    虚拟地址:是程序运行时使用的地址空间,由操作系统和硬件共同管理。允许程序在逻辑上独立都物理内存进行编址。使得程序编写和移植更加方便。每个进程都有自己的虚拟地址空间,不同进程的虚拟地址空间是相互隔离的,这样可以保证各个进程的安全性和独立性。物理地址:是计算机实际的内存地址,由内存管理单元MMU负责将虚拟地址映射到物理地址。物理地址是唯一的,用于直接访问物理地址中的数据。操作系统通过页表等结构来维持虚拟地址和物理地址之间的转换。7、页中断是什么时候发生的    访问未分配的页面:当进程试图访问一个尚未分配给他的虚拟地址会触发页中断。这可能是因为该页面从未被分配过,或者是因为内存紧张,该页面被操作系统临时调出磁盘交换空间中。权限问题:如果进程试图以不正确的权限访问某个页面,会导致页中断。操作系统会检查页面的访问权限,并在发现委会访问时触发页中断。硬件异常:某些一件故障或者异常情况也可能会导致也终端,例如内存控制器检测到内存错误。8、linux如何表示文件系统的权限    符号表示法:r表示读、w表示写、x表示执行    数字表示:读、写、执行权限分别用数字4,2,1表示9、linux文件系统中,在一个文件中,查找一个关键字上下10行的一个内容,如何查找    可以使用grep命令结合上下文参数-A显示匹配行后n行,-B显示匹配行前n行-C显示匹配行前后各n行。
查看12道真题和解析
点赞 评论 收藏
分享
评论
5
24
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务