首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
老欧讲职场
字节跳动_大数据工程师
关注
已关注
取消关注
知乎大数据工程师面试题总结!
@老欧讲职场:
10.19 荣耀、知乎、猫眼面试题总结!!!
昨天的文章里总结了荣耀大数据面试总结!欢迎关注我!知乎大数据Flink 的 Checkpoint 是什么?Flink 的 Checkpoint 是一种机制,用于实现流式应用程序的容错和恢复。它是将应用程序的状态信息定期保存到持久化存储介质(如分布式文件系统)上的过程。Checkpoint 可以在应用程序运行过程中定期触发,或者在特定事件发生时手动触发。当触发 Checkpoint 时,Flink 会暂停应用程序的执行,并将应用程序的状态信息保存到可靠的存储位置。这包括保存所有的数据流源的当前状态、所有算子的状态以及所有的连接和缓冲区的状态。通过定期触发 Checkpoint,Flink 可以将应用程序的状态信息保存到持久化存储介质上,以便在发生故障时进行恢复。当应用程序发生故障或崩溃时,Flink 可以使用最近一次成功的 Checkpoint 来恢复应用程序的状态,并从故障发生之前的状态继续执行。Checkpoint 还可以用于应用程序的版本控制、回滚和实验性的保存点功能。Flink的反压的机制是什么?Flink的反压(Backpressure)机制是一种流控制机制,用于解决数据流处理中生产者和消费者之间速率不匹配的问题。当消费者的处理速度无法跟上生产者的数据产生速率时,反压机制可以帮助控制生产者的数据发送速度,以避免数据丢失或系统崩溃。在Flink中,反压机制通过以下几个组件来实现:基于网络传输的反压:Flink的任务之间通过网络进行数据传输,当接收方的任务无法及时处理接收到的数据时,会通过网络反馈给发送方,发送方会减慢数据发送速度。非阻塞的异步缓冲:Flink的任务之间使用非阻塞的异步缓冲队列来传输数据,当缓冲区满时,发送方会降低发送速度,以等待接收方处理缓冲区中的数据。动态任务调整:Flink可以根据反压机制的反馈信息,动态地调整任务的并行度或资源分配,以适应不同任务之间的速率差异。总的来说,Flink的反压机制通过网络传输的反馈、非阻塞的异步缓冲和动态任务调整等组件的配合使用,实现了生产者和消费者之间的速率控制,确保了数据流处理的稳定性和可靠性。Flink的状态后端有哪些?Flink的状态后端有以下几种:MemoryStateBackend:将状态保存在JVM的堆内存中,适用于开发和调试阶段,但不适用于生产环境。FsStateBackend:将状态保存在分布式文件系统(例如HDFS)中,可以提供更高的容错性和可靠性。RocksDBStateBackend:将状态保存在RocksDB中,RocksDB是一个高性能的持久化键值存储引擎,适用于大规模数据和长时间的处理。通过配置文件或编程方式,可以选择其中一种状态后端来存储和管理Flink作业的状态。Kafka一定不会丢数据嘛?Kafka的设计目标是提供高吞吐量、低延迟、可靠的数据流处理。虽然Kafka采用了一些机制来确保数据的可靠性,但并不能保证绝对不丢数据。Kafka的消息持久化机制是将消息写入持久化日志文件中,而不是直接写入磁盘。Kafka使用了分布式副本机制来提供数据冗余和容错能力。当消息被写入到Leader副本后,Kafka会等待所有的In-Sync Replicas(ISR)都成功写入消息后才会认为消息写入成功。只有在ISR中的副本失效或者无法及时追赶上Leader副本的情况下,才可能导致数据丢失。然而,即使Kafka提供了数据冗余和副本机制,仍然有一些情况下可能导致数据丢失,例如:如果所有的ISR副本都失效或无法追赶上Leader副本,消息可能会丢失。如果消息未能及时被Consumer消费,而Kafka中的消息保留时间(retention)已过期,那些未被消费的消息也会被删除,从而丢失数据。在写入过程中发生硬件故障或网络故障,也可能导致数据丢失。因此,虽然Kafka具有较高的可靠性和冗余机制,但无法保证绝对不丢失数据。在实际应用中,通常需要根据具体需求和业务场景来选择适当的配置和策略,以最大程度地减少数据丢失的可能性。Spark的内存模型?Spark的内存模型主要包括堆内存和堆外内存两部分。堆内存:Spark将堆内存划分为两个区域,分别是执行内存(Execution Memory)和存储内存(Storage Memory)。执行内存:用于存放正在执行的任务需要的数据,如RDD的分区数据、Shuffle数据等。执行内存又分为两个部分,分别是用于存放计算中间结果的堆内存(Heap Execution Memory)和用于存放序列化数据的堆外内存(Off-Heap Execution Memory)。存储内存:用于缓存RDD的数据,以便在多个阶段间复用数据。存储内存也分为两个部分,分别是用于缓存数据的堆内存(Heap Storage Memory)和用于缓存序列化数据的堆外内存(Off-Heap Storage Memory)。堆外内存:Spark使用堆外内存来存储超出堆内存容量的数据。堆外内存也分为两个部分,分别是用于存放计算中间结果的堆外内存(Off-Heap Execution Memory)和用于缓存数据的堆外内存(Off-Heap Storage Memory)。堆外内存使用Direct Memory进行分配和管理,减少了垃圾回收的开销。Spark的内存模型允许将数据存储在内存中进行高速计算,提高了计算性能和效率。同时,通过合理配置堆内存和堆外内存的大小,可以充分利用集群的资源,提升Spark应用的性能。数据仓库的意义?数据仓库的意义是将企业的各种数据从不同的数据源中集中起来,进行整合、清洗和转换,以提供决策支持和业务分析所需的一致、准确、完整的数据。数据仓库可以帮助企业实现以下目标:一体化视图:数据仓库能够将来自不同部门和系统的数据整合到一个统一的视图中,使企业能够全面了解业务状况和趋势。决策支持:通过数据仓库,企业可以进行多维度的数据分析和挖掘,帮助决策者快速获取准确的信息,支持决策制定和业务优化。数据一致性:数据仓库中的数据经过清洗、转换和整合,可以确保数据的一致性和准确性,避免了来自不同数据源的数据不一致问题。历史数据分析:数据仓库可以保存历史数据,使企业能够进行趋势分析和历史数据回溯,帮助企业发现问题、预测趋势和优化业务。数据集成和共享:数据仓库可以将来自不同数据源的数据整合到一个统一的平台上,方便数据的共享和集成,提高数据的利用价值。综上所述,数据仓库对于企业来说具有重要的意义,它能够提供一致性、准确性和完整性的数据,为决策者提供有效的决策支持和业务分析,帮助企业优化业务流程、提高竞争力。如何衡量一个好的数仓?一个好的数仓可以通过以下几个方面来衡量:数据准确性和完整性:数仓中的数据应该准确、完整,能够反映真实的业务情况。数据质量的好坏对后续的分析和决策有重要影响。数据一致性:数仓中的数据应该保持一致性,即不同数据源、不同维度、不同粒度的数据在数仓中应该能够进行统一的整合和计算。数据可用性和易用性:数仓应该提供方便、快速的数据访问接口,包括查询接口、API接口等,能够满足用户的各种需求。数据安全性:数仓中的数据应该有合适的安全措施,包括数据加密、用户权限管理、访问控制等,确保数据不被非法获取和篡改。数据可扩展性和性能:数仓需要具备良好的可扩展性,能够适应不断增长的数据量和用户需求。同时,数仓的性能也需要保证,能够在合理的时间范围内完成数据提取、转换和加载等操作。数据可追溯性和可管理性:数仓中的数据应该具备可追溯性,即能够追踪数据的来源、变更历史等信息。同时,数仓的管理也应该方便高效,包括数据清洗、数据转换、数据仓库维护等。综上所述,一个好的数仓应该具备数据准确性和完整性、数据一致性、数据可用性和易用性、数据安全性、数据可扩展性和性能、数据可追溯性和可管理性等特点。Hive的执行计划是什么样子?Hive的执行计划是一个逻辑查询计划,描述了Hive查询的执行步骤和顺序。它由Hive查询优化器生成,并用于指导查询的执行。Hive执行计划通常包含以下几个关键组件:表扫描:指定了需要扫描的表和扫描方式,包括全表扫描或者使用索引进行扫描。过滤条件:指定了查询的过滤条件,用于减少需要扫描的数据量。连接操作:如果查询涉及到多个表的连接操作,执行计划会指定连接的方式,例如join操作使用的连接算法(如map-join或者sort-merge join)。聚合操作:如果查询包含聚合函数(如SUM、COUNT等),执行计划会指定如何进行聚合操作,例如使用hash聚合或者排序聚合。排序操作:如果查询需要按照特定的排序规则输出结果,执行计划会指定如何进行排序操作,例如使用排序算法(如快速排序或者合并排序)。数据传输:执行计划会指定数据在不同节点之间的传输方式,例如使用shuffle操作将数据进行洗牌后再进行下一步计算。执行计划可以通过Hive的EXPLAIN命令来获取,它以树形结构的形式展示查询的执行步骤和顺序,可以帮助开发人员理解查询的执行过程和优化查询性能。
点赞 7
评论 0
简历互助
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
2025-12-28 09:43
哈尔滨理工大学 算法工程师
简单语法易错点
大小写/拼写错误:;易拼错关键字(如virtual误写vitural)。头文件/命名空间遗漏:(用vector忘<vector>、用sqrt忘<cmath>)。分号/括号遗漏:语句结尾漏写分号,if/for/while后代码块若有多行却漏加{}(单行可省,多行必加,否则逻辑出错);括号成对写,避免少写。变量相关错误:使用变量前未定义/未初始化。函数相关错误:函数声明与定义不一致(参数类型/个数不匹配)。
点赞
评论
收藏
分享
2025-12-30 15:09
已编辑
百度_高级研发工程师
对不起,我有罪
不管别的,先认错,我知道不管怎么回事,我肯定是错了,认错总没错。 2025,华为离职、低谷三个月、上岸大厂、儿子出生,这一步一步走过了,都是命好,我一点没努力,其实我可以做的更好,都是我的错。一、离开华为,是我不够努力 是我错了,试用期干了七项工作,我自不量力,干这么多。 是我错了,七项工作,里面有几样没干好,是我不努力,是我不认真,你们说的对,为什么别人能会我不会,都是我的错。 是我错了,我安全检查的工作,干了80%,坑趟完了,工作别人抢走,转正编名额被抢走,是我的错,我不会舔领导,不会来事,我没做到不被人抢走的地步,是我的错,我忏悔。 是我错了,我应该继续努力,完全认同华为文化,刻苦奋斗,...
对2025年忏悔
点赞
评论
收藏
分享
2025-11-05 08:30
已编辑
江西师范大学 Java
感觉时间来不及了,能看看简历吗
我是某双非27届的学生,现在投本地的实习岗位没有任何一个面试,也许是我打的招呼太少了,总感觉想的太多做的太少,大一大二我基本没怎么做对就业有关的事情,甚至javase也才是我这个暑假才看完的,然后上周看完了黑马的外卖,自己跟着敲完了,虽然一直有在看boss,但是今天晚上我才发现整个就业市场怎么激烈,我还有机会吗
孤独的大菠萝ssp到...:
27届有这个觉悟的同学就领先很多人了 加油啊
大学生该如何认清当下的就...
点赞
评论
收藏
分享
2025-11-10 10:28
湖南大学 安卓
京东开奖了,遍地白菜?
今年jd到底怎么回事,东子诚意不够啊,sp,ssp确实存在,我也看到过,但是感觉大家普遍都是白菜,遍地都是白菜,今年真的……尤其是前端,有些211本硕,985本开的都很低,个人见解,相比往年真的少了蛮多,不可否认优秀的人依然拿ssp,但是普遍薪资都下滑了,寒冬真的来临了吗……
程序员花海:
19、20薪都是有水分的,而且京东的总包社招出来之后大厂都不认的。。。
京东开奖
点赞
评论
收藏
分享
2025-12-30 14:53
OPPO_AI算法部_AI研究员(准入职员工)
霸王茶姬内推,霸王茶姬内推码
1️⃣霸王茶姬面经(hr面) “简单自我介绍一下” 我大概讲了专业成绩和获奖等,我特意提到了我在社团有过活动策划的经历 “嗯有过活动策划经历是吧,说一下你对最近的市场热点有关注吗” “你了解霸王茶姬吗?就你的了解说一下” “你知道我们最近做的活动吗?” “你觉得你的沟通能力怎么样” “你知道达人是什么吗” “你了解我们这个岗位吗” “你觉得以你的经历,能为这个岗位带来什么,你做这个岗位的优势是什么” “你从大学城到公司大概要多久” -反问环节 问了薪资和上下班时间之类的 2️⃣霸王茶姬复试面经(部门主管面) “简单介绍一下自己” “你觉得做一个活动策划最重要的是什么” “你想从我们这个实习中获...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
为什么你的实习是“无效实习”?又该如何做
2795
2
...
双非终于上岸了!!!!
2759
3
...
最后一天,你的2025牛客年度报告即将封存!
2735
4
...
都 2026 年了,还在神话 AI Agent开发吗?
2712
5
...
我的秋招回忆录:从惨败到硕果的成长之路
1553
6
...
简历求锐评,211硕士找实习
1215
7
...
2025找工年终总结
1096
8
...
字节实习生涨薪保真?
1084
9
...
Goodnight World!文科转码兜兜转转的那些年……
930
10
...
第一次感受到世界上有些人真的有优越感
771
创作者周榜
更多
正在热议
更多
#
对2025年忏悔
#
9675次浏览
183人参与
#
机械/制造每日一题
#
82021次浏览
1428人参与
#
一人说一家双休的公司
#
13523次浏览
146人参与
#
机械求职避坑tips
#
82559次浏览
537人参与
#
实习没人带,苟住还是跑路?
#
18559次浏览
338人参与
#
非技术2023笔面经
#
316805次浏览
2684人参与
#
工作中,努力重要还是选择重要?
#
248323次浏览
2412人参与
#
如果秋招能重来,我会____
#
79572次浏览
471人参与
#
面试紧张时你会有什么表现?
#
21102次浏览
154人参与
#
应届生,你找到工作了吗
#
97478次浏览
595人参与
#
每个月的工资都是怎么分配的?
#
81668次浏览
665人参与
#
春招前还要继续实习吗?
#
12087次浏览
134人参与
#
虾皮求职进展汇总
#
362578次浏览
2767人参与
#
影石Insta360求职进展汇总
#
169325次浏览
1345人参与
#
你面试被问到过哪些不会的问题?
#
107266次浏览
1879人参与
#
哪些公司笔/面试难度大?
#
7470次浏览
35人参与
#
秋招被确诊为……
#
280386次浏览
1589人参与
#
AI时代,哪些岗位最容易被淘汰
#
25916次浏览
223人参与
#
滴滴求职进展汇总
#
291551次浏览
2405人参与
#
工作后,谈恋爱还和学生时代一样吗?
#
46859次浏览
389人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务