10.19 荣耀、知乎、猫眼面试题总结！！！

昨天的文章里总结了荣耀大数据面试总结！欢迎关注我！

知乎大数据

Flink 的 Checkpoint 是什么？

Flink 的 Checkpoint 是一种机制，用于实现流式应用程序的容错和恢复。它是将应用程序的状态信息定期保存到持久化存储介质（如分布式文件系统）上的过程。

Checkpoint 可以在应用程序运行过程中定期触发，或者在特定事件发生时手动触发。当触发 Checkpoint 时，Flink 会暂停应用程序的执行，并将应用程序的状态信息保存到可靠的存储位置。这包括保存所有的数据流源的当前状态、所有算子的状态以及所有的连接和缓冲区的状态。

通过定期触发 Checkpoint，Flink 可以将应用程序的状态信息保存到持久化存储介质上，以便在发生故障时进行恢复。当应用程序发生故障或崩溃时，Flink 可以使用最近一次成功的 Checkpoint 来恢复应用程序的状态，并从故障发生之前的状态继续执行。

Checkpoint 还可以用于应用程序的版本控制、回滚和实验性的保存点功能。

Flink的反压的机制是什么？

Flink的反压（Backpressure）机制是一种流控制机制，用于解决数据流处理中生产者和消费者之间速率不匹配的问题。当消费者的处理速度无法跟上生产者的数据产生速率时，反压机制可以帮助控制生产者的数据发送速度，以避免数据丢失或系统崩溃。

在Flink中，反压机制通过以下几个组件来实现：

基于网络传输的反压：Flink的任务之间通过网络进行数据传输，当接收方的任务无法及时处理接收到的数据时，会通过网络反馈给发送方，发送方会减慢数据发送速度。
非阻塞的异步缓冲：Flink的任务之间使用非阻塞的异步缓冲队列来传输数据，当缓冲区满时，发送方会降低发送速度，以等待接收方处理缓冲区中的数据。
动态任务调整：Flink可以根据反压机制的反馈信息，动态地调整任务的并行度或资源分配，以适应不同任务之间的速率差异。

总的来说，Flink的反压机制通过网络传输的反馈、非阻塞的异步缓冲和动态任务调整等组件的配合使用，实现了生产者和消费者之间的速率控制，确保了数据流处理的稳定性和可靠性。

Flink的状态后端有哪些？

Flink的状态后端有以下几种：

MemoryStateBackend：将状态保存在JVM的堆内存中，适用于开发和调试阶段，但不适用于生产环境。
FsStateBackend：将状态保存在分布式文件系统（例如HDFS）中，可以提供更高的容错性和可靠性。
RocksDBStateBackend：将状态保存在RocksDB中，RocksDB是一个高性能的持久化键值存储引擎，适用于大规模数据和长时间的处理。

通过配置文件或编程方式，可以选择其中一种状态后端来存储和管理Flink作业的状态。

Kafka一定不会丢数据嘛?

Kafka的设计目标是提供高吞吐量、低延迟、可靠的数据流处理。虽然Kafka采用了一些机制来确保数据的可靠性，但并不能保证绝对不丢数据。

Kafka的消息持久化机制是将消息写入持久化日志文件中，而不是直接写入磁盘。Kafka使用了分布式副本机制来提供数据冗余和容错能力。当消息被写入到Leader副本后，Kafka会等待所有的In-Sync Replicas（ISR）都成功写入消息后才会认为消息写入成功。只有在ISR中的副本失效或者无法及时追赶上Leader副本的情况下，才可能导致数据丢失。

然而，即使Kafka提供了数据冗余和副本机制，仍然有一些情况下可能导致数据丢失，例如：

如果所有的ISR副本都失效或无法追赶上Leader副本，消息可能会丢失。
如果消息未能及时被Consumer消费，而Kafka中的消息保留时间（retention）已过期，那些未被消费的消息也会被删除，从而丢失数据。
在写入过程中发生硬件故障或网络故障，也可能导致数据丢失。

因此，虽然Kafka具有较高的可靠性和冗余机制，但无法保证绝对不丢失数据。在实际应用中，通常需要根据具体需求和业务场景来选择适当的配置和策略，以最大程度地减少数据丢失的可能性。

Spark的内存模型？

Spark的内存模型主要包括堆内存和堆外内存两部分。

堆内存：Spark将堆内存划分为两个区域，分别是执行内存（Execution Memory）和存储内存（Storage Memory）。执行内存：用于存放正在执行的任务需要的数据，如RDD的分区数据、Shuffle数据等。执行内存又分为两个部分，分别是用于存放计算中间结果的堆内存（Heap Execution Memory）和用于存放序列化数据的堆外内存（Off-Heap Execution Memory）。存储内存：用于缓存RDD的数据，以便在多个阶段间复用数据。存储内存也分为两个部分，分别是用于缓存数据的堆内存（Heap Storage Memory）和用于缓存序列化数据的堆外内存（Off-Heap Storage Memory）。
堆外内存：Spark使用堆外内存来存储超出堆内存容量的数据。堆外内存也分为两个部分，分别是用于存放计算中间结果的堆外内存（Off-Heap Execution Memory）和用于缓存数据的堆外内存（Off-Heap Storage Memory）。堆外内存使用Direct Memory进行分配和管理，减少了垃圾回收的开销。

Spark的内存模型允许将数据存储在内存中进行高速计算，提高了计算性能和效率。同时，通过合理配置堆内存和堆外内存的大小，可以充分利用集群的资源，提升Spark应用的性能。

数据仓库的意义？

数据仓库的意义是将企业的各种数据从不同的数据源中集中起来，进行整合、清洗和转换，以提供决策支持和业务分析所需的一致、准确、完整的数据。数据仓库可以帮助企业实现以下目标：

一体化视图：数据仓库能够将来自不同部门和系统的数据整合到一个统一的视图中，使企业能够全面了解业务状况和趋势。
决策支持：通过数据仓库，企业可以进行多维度的数据分析和挖掘，帮助决策者快速获取准确的信息，支持决策制定和业务优化。
数据一致性：数据仓库中的数据经过清洗、转换和整合，可以确保数据的一致性和准确性，避免了来自不同数据源的数据不一致问题。
历史数据分析：数据仓库可以保存历史数据，使企业能够进行趋势分析和历史数据回溯，帮助企业发现问题、预测趋势和优化业务。
数据集成和共享：数据仓库可以将来自不同数据源的数据整合到一个统一的平台上，方便数据的共享和集成，提高数据的利用价值。

综上所述，数据仓库对于企业来说具有重要的意义，它能够提供一致性、准确性和完整性的数据，为决策者提供有效的决策支持和业务分析，帮助企业优化业务流程、提高竞争力。

如何衡量一个好的数仓？

一个好的数仓可以通过以下几个方面来衡量：

数据准确性和完整性：数仓中的数据应该准确、完整，能够反映真实的业务情况。数据质量的好坏对后续的分析和决策有重要影响。
数据一致性：数仓中的数据应该保持一致性，即不同数据源、不同维度、不同粒度的数据在数仓中应该能够进行统一的整合和计算。
数据可用性和易用性：数仓应该提供方便、快速的数据访问接口，包括查询接口、API接口等，能够满足用户的各种需求。
数据安全性：数仓中的数据应该有合适的安全措施，包括数据加密、用户权限管理、访问控制等，确保数据不被非法获取和篡改。
数据可扩展性和性能：数仓需要具备良好的可扩展性，能够适应不断增长的数据量和用户需求。同时，数仓的性能也需要保证，能够在合理的时间范围内完成数据提取、转换和加载等操作。
数据可追溯性和可管理性：数仓中的数据应该具备可追溯性，即能够追踪数据的来源、变更历史等信息。同时，数仓的管理也应该方便高效，包括数据清洗、数据转换、数据仓库维护等。

综上所述，一个好的数仓应该具备数据准确性和完整性、数据一致性、数据可用性和易用性、数据安全性、数据可扩展性和性能、数据可追溯性和可管理性等特点。

Hive的执行计划是什么样子？

Hive的执行计划是一个逻辑查询计划，描述了Hive查询的执行步骤和顺序。它由Hive查询优化器生成，并用于指导查询的执行。

Hive执行计划通常包含以下几个关键组件：

表扫描：指定了需要扫描的表和扫描方式，包括全表扫描或者使用索引进行扫描。
过滤条件：指定了查询的过滤条件，用于减少需要扫描的数据量。
连接操作：如果查询涉及到多个表的连接操作，执行计划会指定连接的方式，例如join操作使用的连接算法（如map-join或者sort-merge join）。
聚合操作：如果查询包含聚合函数（如SUM、COUNT等），执行计划会指定如何进行聚合操作，例如使用hash聚合或者排序聚合。
排序操作：如果查询需要按照特定的排序规则输出结果，执行计划会指定如何进行排序操作，例如使用排序算法（如快速排序或者合并排序）。
数据传输：执行计划会指定数据在不同节点之间的传输方式，例如使用shuffle操作将数据进行洗牌后再进行下一步计算。

执行计划可以通过Hive的EXPLAIN命令来获取，它以树形结构的形式展示查询的执行步骤和顺序，可以帮助开发人员理解查询的执行过程和优化查询性能。

#数据人的面试交流地##大数据##大数据面经##大数据面试##大数据实习#

大数据欧老师 - 面试真题分享文章被收录于专栏

解决职场真实面试问题，分享同学真实成功案例，欢迎订阅关注！

全部评论

推荐最新楼层

04-24 13:51

已编辑

西安电子科技大学 Java

选offer

👋个人背景：211计算机混子，代码能力一般，春招急头白脸参加央国企最后拿下这两个offer👏offer1：中广核工程公司驻陆丰仪控调试，待遇19+4，离家1800km💯offer2：张家口卷烟厂待遇未知，应该有13个（猜测）,离家500km牛油们帮忙选一下，家里人不是很喜欢卷烟厂这个offer，但是蜀黍烟草局下岸了

鸿雁于飞：先说offer1：中广核工程公司驻陆丰仪控调试（待遇19+4）中广核这艘央企大船还是很稳的，集团综合效益稳居央企前列。但你得搞清楚，这个19+4的"19"是总包，不是到手数——招聘宣传待遇里把所有能算的都算进去了，饭卡福利积分啥的全包含，有牛油分享实际到手大概打七折。试用期到手可能就四五千的水平，转正后基本工资4800左右，其余靠绩效、年终、大修费撑着。不过核电的工作环境有点"牢笼感"——核电站位置偏僻，远离繁华都市。工程公司是承包商性质，干活比业主公司累，而且大概率要经常出差，有的岗位年出差天数100天以上。最大问题是你这1800km的距离过于离谱，核电员工工作强度最小的时候一周也就回一次家，离得远回家成本高，夫妻感情和亲子关系都是现实考验。说白了：高薪是拿青春和生活换的。再来看offer2：张家口卷烟厂（待遇约13个）张家口卷烟厂是河北中烟下属三家卷烟厂之一，河北中烟主打的"荷花"系列连续多年位居全国高端卷烟品牌销量前列。烟草系统薪资由基本工资+绩效+年终奖构成，综合年薪普遍显著高于当地平均水平，六险二金齐全，福利拉满。有人问"13个是不是太平平无奇了"——关键张家口是四线城市，生活成本低，这13万的购买力相当于深圳的二十多万。离家500km，开车半天到家，周末回趟家完全可行，幸福感直接上两个档次。中广核的牛油说了句大实话： "哪个核电站好？永远是离家近的那个最好。" 选烟厂同理。但是，卷烟厂的坑你得清楚：首先卷烟厂和烟草局不一样，卷烟厂是生产操作类岗位，很多要三班倒。报考条件明确写了要能"胜任夜班工作和长时间站立工作"。一线操作工每天盯着流水线卷烟，工作内容高度重复，有入职的人描述为"食之无味弃之可惜"。有牛油直言"卷烟厂和商业性质的烟草公司不一样，前者很坑很累"。其次你家里人不是不喜欢，而是担心你这211计算机科班出身，进了烟厂干操作工，技能会快速退化，未来如果行业改革，技术壁垒不高，转行比较困难。等你干两年再跳出来，技术栈全忘干净了，回头再去敲代码，发现连应届生都卷不过。老牛油的灵魂三问： 1. 你是更怕穷，还是更怕想家？如果特别恋家的人跑1800km之外，第一年哭鼻子的概率高达80%。陆丰那地方偏僻单调，核电基地又远又闷，闲下来除了打游戏没啥娱乐，社交圈也窄。找个对象都费劲——牛油亲测核电站"狼多肉少"。 2. 你的代码能力有多"一般"？如果真的一般，仪控调试和你专业匹配度不算高，这活儿主要是工程改造设计、现场实施管理、在建机组设计审查等，偏工程向而非纯软开。干两年后跳回互联网赛道，竞争力不一定有明显提升。反倒是烟厂不需要你写代码，进去就是稳定躺平。 3. 烟草局下岸这事儿会不会让你耿耿于怀？如果烟草局是你第一志愿，烟厂只是plan B，那得想清楚：进去了可能每天看着天花板想"如果当初去了烟草局该多好"，这种内耗比钱少还折磨人。如果你能接受"反正都是烟草系统，先进去再说"的心态，那倒无所谓。一句话总结：如果年轻想拼想闯做技术积累，中广核虽然累和远，但简历上央企核电的金字招牌确实有含金量，加上到手收入在这两个选项里确实更高，考虑到你个人经济情况和家庭状况，假如家里不需要你常回去照顾，家里有兄弟姐妹帮手分担，那先去核电待三四年，积累经验再跳槽也不失为一步棋。如果想安稳过日子离家近当"人上人"，烟厂低线生活成本加持，加上稳定的编制和福利体系，在张家***得滋润，幸福感吊打陆丰。尤其家里人是那种离不开你的，有烟厂的稳定且离家近，比任何高薪都实在。