三石大数据

2024-01-15 22:07 门头沟学院大数据开发工程师

关注

结合真实场景的Flink面试题【附答案解析】

1.你的项目中是如何提交实时任务的，有多少个JobManager

我们使用yarn session模式提交任务。每次提交都会创建一个新的 Flink 集群，为每一个 job 提供一个 yarn-session，任务之间互相独立，互不影响，方便管理。任务执行完成之后创建的集群也会消失。
集群默认只有一个 Job Manager。但为了防止单点故障，我们配置了高可用。一般配置一个主 Job Manager，两个备用 Job Manager，然后结合 ZooKeeper 的使用，来达到高可用。

2.你是怎么做压力测试和监控的

如果产生数据流的速度如果过快，而下游的算子消费不过来的话，会产生背压。
背压的监控可以使用 Flink Web UI来可视化监控，一旦报警就能知道。一般情况下背压问题的产生可能是由于 sink 这个操作符没有优化好，做一下优化即可。我们的优化有如下几种方式：设置 watermark 的最大延迟时间这个参数，如果设置的过大，可能会造成内存的压力。可以设置最大延迟时间小一些，然后把迟到元素发送到侧输出流中去。晚一点更新结果。或者使用类似于 RocksDB 这样的状态后端， RocksDB 会开辟堆外存储空间，但 IO 速度会变慢，需要权衡。滑动窗口的长度如果过长，而滑动距离很短的话，Flink 的性能会下降的很厉害。我们主要通过时间分片的方法，将每个元素只存入一个重叠窗口，这样就可以减少窗口处理中状态的写入。状态后端使用RocksDB，保证不会被击穿。

3.项目中为什么用Flink，不用Spark

主要考虑的是Flink的低延迟、高吞吐量和对流式数据应用场景更好的支持；另外，Flink可以很好地处理乱序数据，而且可以保证 exactly-once 的状态一致性。

4.如果下级存储不支持事务，Flink如何保证精准一次性

端到端的exactly-once对sink要求比较高，具体实现主要有幂等写入和事务性写入两种方式。其中幂等写入的场景依赖于业务逻辑，更常见的是用事务性写入。而事务性写入又有预写日志（WAL）和两阶段提交（2PC）两种方式。如果外部系统不支持事务，那么可以用预写日志的方式，把结果数据先当成状态保存，然后在收到 checkpoint 完成的通知时，一次性写入sink系统。

5.双十一场景，滑动窗口长度为0.5小时，滑动距离为5秒钟，亿级用户，怎样计算 UV

首当其冲就是布隆过滤器（Bloom Filter）
布隆过滤器本质上是一个二进制数组，元素的值不是1就是0。当我们存一个用户id为10的用户，假设我们经过三次哈希，存的数组下标为1，3，7，就将这三个下标的元素改为1。这样每次访问redis之前，先访问布隆过滤器。查询id为10的用户时，经过布隆过滤器的哈希算法，获取到该用户对应的下标是1，3，7。那么，如果这三个数组的下标对应的元素都为1，则表示存在该用户，放行这次请求。如果有一个为0，则不存在该用户。

6.Flink CEP 编程中当状态没有到达的时候会将数据保存在哪里

在流式处理中，CEP 当然是要支持 EventTime 的，那么相对应的也要支持数据的迟到现象，也就是 watermark 的处理逻辑。CEP 对未匹配成功的事件序列的处理，和迟到数据是类似的。在 Flink CEP 的处理逻辑中，状态没有满足的和迟到的数据，都会存储在一个Map数据结构中，也就是说，如果我们限定判断事件序列的时长为3分钟，那么内存中就会存储3分钟的数据。

7.Flink 程序在面对数据高峰期时如何处理

使用大容量的Kafka把数据先放到消息队列里面作为数据源，再使用Flink进行消费

8.实时数仓怎么分层设计才能兼顾时效性和通用性？

如果数据量不大，建立实时数仓只构建 ods -> dwd 就足够使用。ods -> dwd 是为了字段标准化，通用化，然后后面把 dwd 层导入到 OLAP 中进行查询使用；或者建立 ads 层，ads 层直接消费 dwd，这样时效性也可以得到保障。
如果数据量大，可以尝试进行 dws 聚合，聚合之后根据数据量（流量）缩减的实际效果来评估是否需要建立此 dws。

9.你一般是将实时数据存储到哪里提供对外服务？有没有标准的数据服务方式？

举个例子，电商场景中实时计算商家的用户UV数据，这个数据服务的整体链路由实时数仓到后端再到前端。其中实时数仓就是数据的提供方，后端就是数据的使用方，前端就是数据的展示方。
后端作为数据的使用方来说，后端期望的能达到的最好的数据服务方式就是实时数仓能提供一个接口给我，仅需要把商家ID作为入参，这个接口就能把商家的实时用户UV数据返回给后端。

10.介绍下 Flink 中的状态机制

Flink中的状态机制主要是指 Flink 应用程序中的状态管理机制。在 Flink 中，状态是指 Flink 作业中可以被访问和修改的数据。Flink 支持多种类型的状态，例如键控状态、操作符状态、窗口状态等。状态可以存储在内存、堆外内存或分布式文件系统中，可以通过 Checkpoint 和 Savepoint 进行快照和恢复。

Flink 的状态机制主要解决以下两个问题：

状态一致性问题：由于 Flink 应用程序通常需要并发处理大量的数据，因此需要对状态进行并发访问和修改。此时必须保证状态的一致性，避免出现数据不一致等问题。Flink 通过分布式锁和分布式算法来实现状态一致性，保证在并发场景下状态的正确性。
状态快照和恢复问题：为了保证 Flink 应用程序的可靠性和容错性，Flink 采用了 Checkpoint 和 Savepoint 机制对作业的状态进行快照和恢复。Checkpoint 是周期性地将作业状态快照写入分布式存储系统中，以便在程序失败或者非正常关闭时能够恢复程序状态。Savepoint 则是手动触发的状态快照，可以用于停止并重新启动应用程序或将应用程序迁移到新的集群中。

#数据人的面试交流地##我的失利项目复盘##24秋招避雷总结##大数据开发#

全部评论

推荐最新楼层

11-11 22:26

门头沟学院安卓

亲爱的mentor不要离开我

mentor技术档案 故事的主人公是我的第一任mentor，也就是在小米的mentor，名字叫莫昌明（真的好想歌颂他，毕竟我这是赞扬，实名应该没啥问题）可不是百度的mentor，其实现在的百度mentor也挺不错了，开始指导我面试了。很庆幸职业生涯开始就遇到了以为很好的导师，我的这位导师，为人谦虚低调，技术好，是十足的技术派，可以说对技术达到了信仰的地步，每天就是敲着苹果电脑，解决各种技术难题。965也可以成为技术大佬 初入小米，团队给我安排了这位技术大牛带我。然后mentor和我说的第一句话是：我做的东西比较杂，一时半会还不知道让你做啥，你可先学习着。我当时心想：还能有多杂，有个大的方向，不...

你的mentor是什么样...

点赞评论收藏

分享

11-12 16:31

中国石油大学（华东）建模仿真工程师

offer终极选择望佬给些建议

本人bg双2机械硕士，最后决赛圈选择offer保底 一是海尔新时达机器人 研发岗base深圳，给我n×14（八成底薪二成绩效）总包25左右 五险一金双边百分之7 网上没有很多了解这个公司的消息 有没有懂行的 也不知道加班情况 二是赛力斯研发岗 base重庆 （n-2）✖️14 总包23左右 五险一金双边百分之十 听说加班强度很高 宿舍环境一般（去的话我肯定要租） 三是珠海三一海工 base珠海 （n-2）听说年终4~12月 五险按最低算 公积金8% 总包不确定  和2一样也是牛马厂 #总结:offer选择，我是怎么选的#

总结:offer选择，我...

点赞评论收藏

分享

09-30 19:47

武汉理工大学 Java

秋招第二个offer，京东忠厚

东西忠厚无比

点赞评论收藏

分享

10-23 11:14

广州新华学院嵌入式软件工程师

双非二本这个简历真的约不到面试吗

26应届求职ing：你这是报了豆音四哥的班？双非本硕拿这两个项目写简历里投100多家嵌软也没什么面试，感觉项目简单了，很多人用

点赞评论收藏

分享

11-11 18:45

联想_后端开发部_语音算法工程师(准入职员工)

联想内推，联想内推码

26届联想 | 材料工程师 |面试经验分享！1. 请做一个简短的自我介绍。2. 为什么选择联想材料工程师岗位？你对“材料创新支撑产品竞争力”的理解是什么？3. 分享一次你参与材料实验或研究项目的经历，关键思路是什么？4. 如果研发团队与生产部门对材料工艺有分歧，你会如何沟通协调？5. 你认为材料工程师最核心的非专业能力是什么？你的优势在哪里？6. 描述一次你通过主动学习掌握新材料分析方法的经历，如何应用于实践？7. 如何看待“材料性能指标”与“生产成本控制”的关系？请举例说明平衡策略。8. 分享一次你在团队中推动实验项目落地的经历，遇到的最大挑战是什么？9. 如果你负责高分子涂层材料研究，如何...

点赞评论收藏

分享

评论

3

23

招聘动态

字节跳动火山引擎

2026校园招聘

字节跳动

2026校园招聘

快手

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 互联网行业现在还值得去吗 #

36420次浏览 257人参与

# 落户对你的求职选择影响有多大 #

29099次浏览 101人参与

# 虾皮开奖 #

42307次浏览 202人参与

# 你小时候最想从事什么职业 #

132237次浏览 1971人参与

# 第一次找实习，我建议__ #

27563次浏览 347人参与

# 非技术2024笔面经 #

435127次浏览 4881人参与

# 参加完秋招的机械人，还参加春招吗？ #

80290次浏览 614人参与

# 机械人的工作环境真的很差吗 #

35607次浏览 132人参与

# 牛友的志愿填报指南 #

41460次浏览 196人参与

# 韶音科技求职进展汇总 #

62123次浏览 506人参与

# 从mentor身上学到了__ #

23283次浏览 385人参与

# 你怎么评价今年的春招？ #

143999次浏览 1392人参与

# 外出实习被同学举报 #

6006次浏览 39人参与

# 除了主业以外，你还有哪些其他收入？ #

36319次浏览 303人参与

# 打工人的至爽时刻or至暗时刻 #

42865次浏览 223人参与

# 材料进Fab厂真的劝退吗？ #

60677次浏览 209人参与

# 你认为工作的意义是什么 #

206110次浏览 1309人参与

# 华为海思工作体验 #

36052次浏览 146人参与

# 秋招暂停，我将对以下公司做出处罚__ #

31901次浏览 147人参与

# 如果今天是你的last day，你会怎么度过？ #

49715次浏览 304人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务