字节大数据开发一面

1.自我介绍
2.实习介绍
3.实习工作内容下游使用方主要有那些?
4.AI团队数据支持 他们使用这个数据做的什么
5.除了对表的支持之外,是否在计算层面做过一些优化
6.boradcast join和sortmergeJoin的区别和 使用场景的不同

然后面试官开始说,我觉得概念你应该都会,我就不问你了,所以我后面会从场景的角度去考验你的技术理解,本人听到这里心凉了半截,因为两段实习全是离线,这里全程拷打实时

7.FLink窗口30s 步长5s 窗口触发的时间是在5s触发还是30s之后触发
8. 如果说这个任务是从checkpoints恢复出来的 那他第一次是在5s之后触发还是30s
9.Flink 之中窗口的计算大多时候会导致整点进行触发(有可能导致很多不同的任务再同一个时间段使用资源导致资源紧张),你如何避免窗口不在整点进行触发呢
10.Flink的状态有哪些
11.valueState 和 keyState的区别  这一步回答的不太好,说想问的是这两个在使用场景上的不同
12.上游是kafka 中间存在shuffle,晚高峰出现lag 你该怎么解决 说的提高并行度
13.如果是kafka单个partition导致的lag 你该怎么解决呢 回答的窗口触发计算使用预聚合、kafka提高分区数 进而让下游Flink也提高并行度,回答的貌似不太满意,之前一直做的离线,实时确实不太会
14 kafka如何保证的数据不重复且不遗漏
15 kafka那些手段保证了吞吐量这么大

后续开始拷打计算机基础,os和计算机网络一点没复习,心理更凉了

16 操作系统进程通信有哪些方式    说了有管道和SharedMemory这几种
17 是否了解SharedMemory的实现
18 socket是否有了解 说了下socket以及spark使用netty这种通信架构
19 netty 在spark怎么使用的
20 close wait状态的理解

这里计网和os回答的不太好,开始怀疑是否是计算机科班出身

21 java的HashMap底层如何实现的
22 HashMap的数组能使用arraylist来实现吗
23 二叉树的锯齿状遍历(需要自己构建TreeNode和输入输出)自己写了20分钟 写了个reverse的版本,面试官不满意,最后口述了个双端队列的思路(减少reverse的遍历)

感觉这轮面试又G了,我不知道这是不是字节的正常难度,每次面试字节都是高强度拷打,有点自闭了
全部评论
感觉在b站上看到过这个团队的flink技术应用汇报
1 回复 分享
发布于 2024-09-20 12:16 北京
你这个是数仓吗?
点赞 回复 分享
发布于 2024-10-07 16:53 广东
问的flink那部分工作中比较常用,另外直播是偏向于实时链路,所以问实时多一些
点赞 回复 分享
发布于 2024-10-05 19:54 北京
看了眼主页,大佬
点赞 回复 分享
发布于 2024-09-24 10:07 北京
统一说一下,已经挂了
点赞 回复 分享
发布于 2024-09-21 11:35 广东
佬现在啥情况
点赞 回复 分享
发布于 2024-09-21 10:29 湖北
天呐,感觉难度好大。。。是抖音直播吗
点赞 回复 分享
发布于 2024-09-14 15:49 辽宁
方便的牛友们评价一下难度呗,面字节面的已经有点自闭了,第四个部门了已经
点赞 回复 分享
发布于 2024-09-13 21:59 广东

相关推荐

一·语言方面:由于很多大数据框架都是基于JAVA开发的,个人认为JAVA语言是必不可少的,有余力的话可以去掌握以下PYTHON😊二·数据结构与算法:大二课上没好好学,现在只能再补一遍了,悲😣打算刷完Leetcode的Hot100就先放一边,等秋招再刷别的题😇三·MYSQL:一个关系型数据库管理系统,SQL BOY的开始,初步领略通过建表来管理数据的思想,学完可以去刷一下基础50题和进阶50题(虽然本菜鸡只刷了基础50😓)四·Linux:会安装虚拟机,掌握常见linux常见命令即可五·Hadoop:一个分布式计算框架。所谓分布式,就是将一台电脑无法处理的数据量分散给一个由多台电脑组成的计算机集群来处理,互相分工,彼此合作,形成一个有机整体。框架分为三部分:HDFS(数据存储),MapReduce(数据计算),Yarn(资源调度)。虽然MapReduce已经逐渐被Spark淘汰,但思想依然值得借鉴。高可用机制也应当学习六·Maven:会用即可,打包项目用的七·Hive:也是一种SQL,有了MYSQL的基础应该还算好理解八·Scala和Spark:Spark是用Scala写的,在学习之前得先浏览一遍基本语法。Spark是基于内存的批式计算引擎,已经逐渐取代MapReduce(基于磁盘的计算引擎),APACHE也基本上停止了对MapReduce的更新(经典白学😃)。将来很多离线数仓项目也都是基于SPARK的,可以说非常重要了九·Kafka,Hbase,Flume和ZooKeeper:都是一些小组件,将来面试可能会问到十·Flink:一个流式实时计算引擎,本人JAVA基础较弱,听的时候也是懵懵懂懂当然,仅仅这些肯定远远不够,本人将来还要学Doris,数仓建模理论,数仓项目,八股面经等等。上述理解如有错误还请友好指正(叠甲叠甲叠甲😱)。这些理论也只是匆匆过了一遍(大一太贪玩,大二2月份才开始学),发布笔记也只是记录自己的学习过程,提醒自己不要懈怠(还有当个免费网盘😏)。如果能帮助到你就更好了,虽然我也比较迷茫😖
点赞 评论 收藏
分享
评论
10
54
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务