10.18 荣耀、知乎、猫眼面试题总结！！！_牛客网

在人才库的大师兄很细致

浙江大学产品经理发布于浙江

关注

@老欧讲职场： 10.18 荣耀、知乎、猫眼面试题总结！！！

先把题目贴出来，答案贴一部分。。。题太多了，后面陆续更新。。荣耀大数据Hive 一般有什么调优方式？Hive 的调优方式包括以下几个方面：数据分区：通过在表中定义分区，可以将数据按照指定的列进行分割，提高查询效率。数据压缩：对于存储在 Hive 中的大数据集，可以使用压缩算法对数据进行压缩，减少存储空间，提高查询性能。合理设置表的存储格式：Hive 支持多种存储格式，如ORC、Parquet等。选择合适的存储格式可以提高查询性能。使用索引：对于经常需要进行查询的列，可以创建索引，加快查询速度。调整查询引擎的参数：可以通过设置 Hive 的相关参数，如内存分配、并行度等来优化查询。数据倾斜处理：当数据在某些列上倾斜时，可以使用一些技术手段，如改变数据分布、使用随机前缀等方式来解决数据倾斜问题。数据预处理：在数据加载到 Hive 前，对数据进行预处理，如清洗、过滤、聚合等，可以减少后续查询时的计算量。使用合适的硬件资源：合理使用硬件资源，如增加内存、调整磁盘读写速度等，可以提高 Hive 的性能。以上是一些常见的 Hive 调优方式，根据实际情况可以选择适合的方法进行优化。HDFS 读写流程？HDFS（Hadoop分布式文件系统）的读写流程如下：写入流程：a. 客户端将要写入的数据切分成固定大小的数据块（默认大小为128MB），并与NameNode通信以获取一个可用的DataNode列表。b. 客户端选择一个DataNode作为主节点，并将数据块写入该主节点。c. 主节点将数据块复制到其他DataNode节点，以提供数据冗余和容错性。d. 所有副本写入成功后，主节点将确认写入操作，并向客户端发送成功的响应。读取流程：a. 客户端向NameNode请求读取文件，并获取包含文件块信息的元数据。b. 客户端根据文件块信息选择一个DataNode作为主节点，并向其发送读取请求。c. 主节点返回所请求数据块的副本位置列表给客户端，客户端按照距离和可用性选择一个DataNode进行读取。d. 客户端与所选择的DataNode建立连接，并从该节点读取数据块。e. 如果所选择的DataNode无法提供数据块，则客户端将尝试连接其他副本位置的DataNode。以上就是HDFS的基本读写流程。通过数据切块和复制，HDFS实现了高可用性和容错性，同时通过数据本地性和并行读取，提供了高效的读取性能。Spark 有什么算子？转换算子（Transformation）：用于对RDD数据集进行转换操作，生成新的RDD。常用的转换算子有map、filter、flatMap、groupByKey、reduceByKey等。行动算子（Action）：用于对RDD数据集进行触发计算操作，返回结果或将结果输出到外部存储系统。常用的行动算子有collect、count、reduce、take、foreach等。键值对算子（Key-Value）：用于对键值对类型的RDD数据集进行操作。常用的键值对算子有groupByKey、reduceByKey、sortByKey、join等。排序算子（Sorting）：用于对RDD数据集进行排序操作。常用的排序算子有sortBy、sortByKey等。连接算子（Joining）：用于将两个RDD数据集按照特定的规则进行连接操作。常用的连接算子有join、leftOuterJoin、rightOuterJoin等。文件操作算子（File Operations）：用于读取和写入文件数据。常用的文件操作算子有textFile、saveAsTextFile等。广播变量算子（Broadcast Variables）：用于在集群中共享变量，以提高性能和减少网络传输。常用的广播变量算子有broadcast等。Spark 一般有什么调优方式？Spark 一般有以下几种调优方式：增加硬件资源：增加集群中的节点数量、增加每个节点的CPU、内存和磁盘容量等，以提高整体的计算和存储能力。数据分区和缓存：合理划分数据分区，使每个分区的大小适中，以提高并行处理能力。同时，将频繁访问的数据进行缓存，减少磁盘IO开销。并行度设置：根据集群资源的情况，合理设置并行度参数，以充分利用集群资源，提高计算效率。内存管理：通过调整Spark的内存分配策略，如调整executor内存大小、调整内存分配比例等，以避免内存溢出或频繁的GC操作。数据压缩和序列化：对于大规模的数据集，可以考虑使用压缩算法进行数据压缩，减少网络传输和存储开销。同时，选择合适的序列化方式，如Kryo序列化，以提高性能。并行算法选择：根据具体的计算场景，选择适合的并行算法，如广播变量、累加器等，以提高计算效率。数据倾斜处理：针对数据倾斜的情况，采用合适的处理方式，如使用Spark提供的一些解决方案，如随机前缀、分桶等。调整任务数量和分配：根据集群资源的情况，调整并行任务的数量和分配，以充分利用集群资源，避免资源浪费。数据预处理：在数据处理之前，进行合适的数据预处理，如数据过滤、数据采样等，以减少数据量和提高计算效率。监控和调优：使用Spark提供的监控工具和日志，及时监控集群的运行情况，发现潜在的性能瓶颈，并进行相应的调优。Spark 数据倾斜如何解决？Spark数据倾斜是指在数据处理过程中，某些分区的数据量明显偏大，导致计算过程中负载不均衡的情况。解决Spark数据倾斜可以采取以下几种方法：Shuffle操作优化：Shuffle操作是Spark中常见的导致数据倾斜的原因之一。通过使用合适的分区策略，如使用HashPartitioner，可以将数据更均匀地分布在不同分区中，从而减少数据倾斜的可能性。增加并行度：通过增加并行度，即增加Spark作业的并发执行量，可以分摊负载，减轻数据倾斜的影响。可以通过增加Executor数量、调整Executor内存等方式来提高并行度。数据预处理：对于可能导致数据倾斜的操作，可以进行数据预处理来平衡数据分布。比如，可以对数据进行采样，根据采样结果进行数据重分布，使数据更均匀地分布在各个分区中。增加随机性：在一些可能导致数据倾斜的操作中，引入随机因素可以减少数据倾斜的概率。比如，在进行ReduceByKey等聚合操作时，可以在Key上增加随机前缀或后缀，使相同Key的数据随机分布到不同分区中。使用自定义分区器：通过自定义分区器，可以根据业务逻辑将数据更均匀地分布到不同分区中，从而减少数据倾斜的发生。自定义分区器可以根据数据的特点和业务需求进行定制。数据重分区：当数据倾斜发生时，可以通过对倾斜分区进行数据重分区来解决。可以将倾斜分区的数据划分为更小的子分区，然后将这些子分区与其他正常分区进行合并，从而使数据更均匀地分布。知乎大数据Flink 的 Checkpoint 是什么？Flink的反压的机制是什么？Flink的状态后端有哪些？Kafka一定不会丢数据嘛?Spark的内存模型？数据仓库的意义？如何衡量一个好的数仓？Hive的执行计划是什么样子？猫眼大数据Java String builder和String buffer区别？Java String为什么是不可变的？为什么要设计成不可变？Java 泛型了解吗？Java反射了解吗？常用的反射方法？Java集合类型？Java数组和链表的区别？Java讲讲HashMap原理？转换成红黑树条件？为什么这么设计？Java线程安全的HashMap？ConcurrentHashMap和HashTable的区别？ConcurrentHashMap原理？Java进程切换如何保证能够回到之前的执行位置？JVM里面的内存结构？Java线程池作用？线程池参数？Hive内部表和外部表区别？Hive UDF类别？实现步骤？Hive存储文件格式？行存储和列存储区别？举几个开窗函数例子？什么要有开窗函数，和聚集函数区别？MySQL聚簇索引和非聚簇索引区别？回表操作？HBase读写原理？HBase存储结构？LSM树原理？

点赞 13

评论 1

全部评论

推荐最新楼层

12-01 09:47

中南大学 Java

简历中的项目最推荐的方式

项目，无非就分为三种：第一种，网上免费：像是商城、外卖、点评项目，确实有点烂大街，但是再烂大街也建议跟着走一遍，因为确实能学到东西的。第二种，线上付费：比如加知识星球啥的，这个我个人没加过知识星球，不了解，不评价。第三种，包装项目：这个可以用本科打比赛的时候用的项目，也可以用实验室的项目进行包装。其实最推荐的方式还是通过上述的烂大街项目或者包装项目早点找个中小厂的日常实习，当然如果能找到大厂的日常，那是更好（日常实习还是比较容易找的），然后用日常实习经历的项目作为自己的主项目之后跟面试官聊，因为有了实习经历之后，面试官一般很少会问你项目怎么样的，大部分都是会问你实习经历相关的内容的。我个人就是...

一人推荐一个值得做的项目

点赞评论收藏

分享

12-04 09:58

广州希音国际进出口有限公司_供应链管理(准入职员工)

shein内推，shein内推码

业务一面--30mim自我介绍在安克创新的产品运营主要做了什么?未来的职业规划方向？产品经理和产品运营的区别?两者重叠的核心部分是什么？为什么想做产品运营？为什么实习都不超过半年？这次实习的预期时长与到岗时间？需求收集与过滤占比较高，能接受吗？（其余为面试官讲解岗位内容）二面-25min自我介绍未来希望做产品运营还是产品经理？对该产品的哪条业务线感兴趣？B端产品和C端产品的区别?为什么想做B端产品？（过往为电商运营经验）一周出勤时间？英语听说读写水平？英语自我介绍英语问答：能否接受跨国会议的时差？全球超级独角兽SHEIN26届校招网申开启【关于Shein】全球领先的跨境电商，服务于150+个国...

点赞评论收藏

分享

11-12 14:30

已编辑

广东科技学院前端工程师

有大佬们能帮我看看我的简历嘛……

民办本，想找前端实习，有个小公司愿意收我就满足了……是不是项目太简单了还有技能特长不够多……求锐评，不玻璃心！！！

迷茫的小刺猬在迎接o...：前端岗位越来越少了，中小厂也更倾向全栈了，更不需要初级或者实习。可能就大厂才会有一些岗位，但是很看学历。

实习，投递多份简历没人回...

点赞评论收藏

分享

11-03 14:26

武汉设计工程学院运营

双非秋招没招了

已丧失信心，求大佬指点      

青春期耐面王不会梦到...：你是我见过最美的牛客女孩

双非应该如何逆袭？

点赞评论收藏

分享

12-06 22:12

武汉大学 Java

20251206【科大讯飞】笔试算法真题（共3题）

题目1：细菌生命周期查询题目2：大小写切换最大化题目3：符阵分割最大能量

投递科大讯飞等公司6个岗位

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# offer帮选 #

4807803次浏览 29190人参与

# 0经验如何找实习？ #

750次浏览 24人参与

# 百融云创求职进展汇总 #

1124次浏览 7人参与

# 校招薪资来揭秘 #

347541次浏览 1897人参与

# 产品每日一题 #

72066次浏览 639人参与

281285次浏览 1748人参与

# 你开始找寒假实习了吗？ #

1282次浏览 17人参与

# 如果公司降薪，你会跳槽吗？ #

108160次浏览 670人参与

# 跳槽时有那些注意事项 #

113139次浏览 581人参与

# 实习，不懂就问 #

134747次浏览 1247人参与

# 2025年终总结 #

19845次浏览 284人参与

# 你会为了工作牺牲生活吗？ #

64290次浏览 433人参与

# 职场新人体验 #

152684次浏览 1110人参与

# 第一份工作能做外包吗？ #

88410次浏览 588人参与

# 硬件兄弟们甩出你的华为奖状 #

117891次浏览 702人参与

# Offer比较，你最看重什么？ #

241789次浏览 1493人参与

# 实习中的菜狗时刻 #

449767次浏览 3516人参与

# 实习要如何选择和准备？ #

125809次浏览 1478人参与

# 学历or实习经历，哪个更重要 #

204155次浏览 1086人参与

# uu们，春招你还来吗？ #

17398次浏览 114人参与

# Offer比较，求稳定还是求发展 #

69153次浏览 280人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务