10.18 荣耀、知乎、猫眼面试题总结！！！_牛客网

在人才库的大师兄很细致

浙江大学产品经理发布于浙江

关注

@老欧讲职场： 10.18 荣耀、知乎、猫眼面试题总结！！！

先把题目贴出来，答案贴一部分。。。题太多了，后面陆续更新。。荣耀大数据Hive 一般有什么调优方式？Hive 的调优方式包括以下几个方面：数据分区：通过在表中定义分区，可以将数据按照指定的列进行分割，提高查询效率。数据压缩：对于存储在 Hive 中的大数据集，可以使用压缩算法对数据进行压缩，减少存储空间，提高查询性能。合理设置表的存储格式：Hive 支持多种存储格式，如ORC、Parquet等。选择合适的存储格式可以提高查询性能。使用索引：对于经常需要进行查询的列，可以创建索引，加快查询速度。调整查询引擎的参数：可以通过设置 Hive 的相关参数，如内存分配、并行度等来优化查询。数据倾斜处理：当数据在某些列上倾斜时，可以使用一些技术手段，如改变数据分布、使用随机前缀等方式来解决数据倾斜问题。数据预处理：在数据加载到 Hive 前，对数据进行预处理，如清洗、过滤、聚合等，可以减少后续查询时的计算量。使用合适的硬件资源：合理使用硬件资源，如增加内存、调整磁盘读写速度等，可以提高 Hive 的性能。以上是一些常见的 Hive 调优方式，根据实际情况可以选择适合的方法进行优化。HDFS 读写流程？HDFS（Hadoop分布式文件系统）的读写流程如下：写入流程：a. 客户端将要写入的数据切分成固定大小的数据块（默认大小为128MB），并与NameNode通信以获取一个可用的DataNode列表。b. 客户端选择一个DataNode作为主节点，并将数据块写入该主节点。c. 主节点将数据块复制到其他DataNode节点，以提供数据冗余和容错性。d. 所有副本写入成功后，主节点将确认写入操作，并向客户端发送成功的响应。读取流程：a. 客户端向NameNode请求读取文件，并获取包含文件块信息的元数据。b. 客户端根据文件块信息选择一个DataNode作为主节点，并向其发送读取请求。c. 主节点返回所请求数据块的副本位置列表给客户端，客户端按照距离和可用性选择一个DataNode进行读取。d. 客户端与所选择的DataNode建立连接，并从该节点读取数据块。e. 如果所选择的DataNode无法提供数据块，则客户端将尝试连接其他副本位置的DataNode。以上就是HDFS的基本读写流程。通过数据切块和复制，HDFS实现了高可用性和容错性，同时通过数据本地性和并行读取，提供了高效的读取性能。Spark 有什么算子？转换算子（Transformation）：用于对RDD数据集进行转换操作，生成新的RDD。常用的转换算子有map、filter、flatMap、groupByKey、reduceByKey等。行动算子（Action）：用于对RDD数据集进行触发计算操作，返回结果或将结果输出到外部存储系统。常用的行动算子有collect、count、reduce、take、foreach等。键值对算子（Key-Value）：用于对键值对类型的RDD数据集进行操作。常用的键值对算子有groupByKey、reduceByKey、sortByKey、join等。排序算子（Sorting）：用于对RDD数据集进行排序操作。常用的排序算子有sortBy、sortByKey等。连接算子（Joining）：用于将两个RDD数据集按照特定的规则进行连接操作。常用的连接算子有join、leftOuterJoin、rightOuterJoin等。文件操作算子（File Operations）：用于读取和写入文件数据。常用的文件操作算子有textFile、saveAsTextFile等。广播变量算子（Broadcast Variables）：用于在集群中共享变量，以提高性能和减少网络传输。常用的广播变量算子有broadcast等。Spark 一般有什么调优方式？Spark 一般有以下几种调优方式：增加硬件资源：增加集群中的节点数量、增加每个节点的CPU、内存和磁盘容量等，以提高整体的计算和存储能力。数据分区和缓存：合理划分数据分区，使每个分区的大小适中，以提高并行处理能力。同时，将频繁访问的数据进行缓存，减少磁盘IO开销。并行度设置：根据集群资源的情况，合理设置并行度参数，以充分利用集群资源，提高计算效率。内存管理：通过调整Spark的内存分配策略，如调整executor内存大小、调整内存分配比例等，以避免内存溢出或频繁的GC操作。数据压缩和序列化：对于大规模的数据集，可以考虑使用压缩算法进行数据压缩，减少网络传输和存储开销。同时，选择合适的序列化方式，如Kryo序列化，以提高性能。并行算法选择：根据具体的计算场景，选择适合的并行算法，如广播变量、累加器等，以提高计算效率。数据倾斜处理：针对数据倾斜的情况，采用合适的处理方式，如使用Spark提供的一些解决方案，如随机前缀、分桶等。调整任务数量和分配：根据集群资源的情况，调整并行任务的数量和分配，以充分利用集群资源，避免资源浪费。数据预处理：在数据处理之前，进行合适的数据预处理，如数据过滤、数据采样等，以减少数据量和提高计算效率。监控和调优：使用Spark提供的监控工具和日志，及时监控集群的运行情况，发现潜在的性能瓶颈，并进行相应的调优。Spark 数据倾斜如何解决？Spark数据倾斜是指在数据处理过程中，某些分区的数据量明显偏大，导致计算过程中负载不均衡的情况。解决Spark数据倾斜可以采取以下几种方法：Shuffle操作优化：Shuffle操作是Spark中常见的导致数据倾斜的原因之一。通过使用合适的分区策略，如使用HashPartitioner，可以将数据更均匀地分布在不同分区中，从而减少数据倾斜的可能性。增加并行度：通过增加并行度，即增加Spark作业的并发执行量，可以分摊负载，减轻数据倾斜的影响。可以通过增加Executor数量、调整Executor内存等方式来提高并行度。数据预处理：对于可能导致数据倾斜的操作，可以进行数据预处理来平衡数据分布。比如，可以对数据进行采样，根据采样结果进行数据重分布，使数据更均匀地分布在各个分区中。增加随机性：在一些可能导致数据倾斜的操作中，引入随机因素可以减少数据倾斜的概率。比如，在进行ReduceByKey等聚合操作时，可以在Key上增加随机前缀或后缀，使相同Key的数据随机分布到不同分区中。使用自定义分区器：通过自定义分区器，可以根据业务逻辑将数据更均匀地分布到不同分区中，从而减少数据倾斜的发生。自定义分区器可以根据数据的特点和业务需求进行定制。数据重分区：当数据倾斜发生时，可以通过对倾斜分区进行数据重分区来解决。可以将倾斜分区的数据划分为更小的子分区，然后将这些子分区与其他正常分区进行合并，从而使数据更均匀地分布。知乎大数据Flink 的 Checkpoint 是什么？Flink的反压的机制是什么？Flink的状态后端有哪些？Kafka一定不会丢数据嘛?Spark的内存模型？数据仓库的意义？如何衡量一个好的数仓？Hive的执行计划是什么样子？猫眼大数据Java String builder和String buffer区别？Java String为什么是不可变的？为什么要设计成不可变？Java 泛型了解吗？Java反射了解吗？常用的反射方法？Java集合类型？Java数组和链表的区别？Java讲讲HashMap原理？转换成红黑树条件？为什么这么设计？Java线程安全的HashMap？ConcurrentHashMap和HashTable的区别？ConcurrentHashMap原理？Java进程切换如何保证能够回到之前的执行位置？JVM里面的内存结构？Java线程池作用？线程池参数？Hive内部表和外部表区别？Hive UDF类别？实现步骤？Hive存储文件格式？行存储和列存储区别？举几个开窗函数例子？什么要有开窗函数，和聚集函数区别？MySQL聚簇索引和非聚簇索引区别？回表操作？HBase读写原理？HBase存储结构？LSM树原理？

点赞 13

评论 1

全部评论

推荐最新楼层

12-06 11:57

复旦大学 Java

Redis刷题题库

1.Redis为什么快？ 基于内存操作：Redis的绝大部分操作在内存里就可以实现，数据也存在内存中，与传统的磁盘文件操作相比减少了IO，提高了操作的速度。高效的数据结构：Redis有专门设计了STRING、LIST、HASH等高效的数据结构，依赖各种数据结构提升了读写的效率。采用单线程：单线程操作省去了上下文切换带来的开销和CPU的消耗，同时不存在资源竞争，避免了死锁现象的发生。I/O多路复用：采用I/O多路复用机制同时监听多个Socket，根据Socket上的事件来选择对应的事件处理器进行处理。2.为什么Redis是单线程？单线程指的是：网络请求模块使用单线程进行处理，其他模块仍用多个线程...

点赞评论收藏

分享

12-04 09:47

OPPO_AI算法部_AI研究员(准入职员工)

霸王茶姬内推，霸王茶姬内推码

1️⃣霸王茶姬面经（hr面） “简单自我介绍一下” 我大概讲了专业成绩和获奖等，我特意提到了我在社团有过活动策划的经历 “嗯有过活动策划经历是吧，说一下你对最近的市场热点有关注吗” “你了解霸王茶姬吗？就你的了解说一下” “你知道我们最近做的活动吗？” “你觉得你的沟通能力怎么样” “你知道达人是什么吗” “你了解我们这个岗位吗” “你觉得以你的经历，能为这个岗位带来什么，你做这个岗位的优势是什么” “你从大学城到公司大概要多久” -反问环节 问了薪资和上下班时间之类的 2️⃣霸王茶姬复试面经（部门主管面） “简单介绍一下自己” “你觉得做一个活动策划最重要的是什么” “你想从我们这个实习中获...

点赞评论收藏

分享

11-24 22:32

西安电子科技大学 Java

找实习好累，好难找

Bos打200多次招呼，才投了14份简历，在官网上也投投投。到现在就1个28号的面试是简历的问题吗

投递大连飞创信息技术有限公司等公司6个岗位

点赞评论收藏

分享

11-25 16:38

天津滨海职业学院测试开发

哈哈哈 和你们开玩笑的

想进开水团喝开水：哦给我一个

就算你真拿到牛友也会为你开心的

点赞评论收藏

分享

12-05 16:49

华南师范大学

26校招平安产险科技管培生

市场管培生，hr挺实在的，说是to B，应该是团渠，是一线对接客户的，还是看自己适应能力强不强吧，我可以适应大部分环境，希望自己可以慢慢做得好的，不要提前给自己设太多限制了。

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

数字马力交流圈

热聊中

华为进展交流圈

热聊中

创作者周榜

更多

正在热议

更多

# 你今年做了几份实习？ #

2536次浏览 43人参与

# 实习必须要去大厂吗？ #

166500次浏览 1651人参与

# 百融云创求职进展汇总 #

9044次浏览 118人参与

# 实习越久越好，还是多多益善？ #

7865次浏览 68人参与

# 刚工作，应该先搞钱or搞成长？ #

3654次浏览 55人参与

# 0经验如何找实习？ #

9855次浏览 215人参与

# 求职低谷期你是怎么度过的 #

23718次浏览 316人参与

# 你是怎么和mt相处的？ #

81988次浏览 426人参与

# 25年找工作是什么难度？ #

5662次浏览 58人参与

# 一上班就想____，这正常吗？ #

1945次浏览 41人参与

# 你开始找寒假实习了吗？ #

5475次浏览 97人参与

# 你找工作经历过哪些骗局？ #

3445次浏览 61人参与

# 离职你会和父母说吗？ #

4923次浏览 63人参与

# 找工作能把i人逼成什么样 #

1363次浏览 19人参与

# 研究所VS国企，该如何选 #

230307次浏览 1954人参与

# 产品每日一题 #

73189次浏览 656人参与

# 面试题刺客退退退 #

490492次浏览 7286人参与

# 如果有时光机，你最想去到哪个年纪？ #

63273次浏览 842人参与

# 你的实习什么时候入职 #

323109次浏览 2182人参与

# 你觉得技术面多长时间合理？ #

153371次浏览 1101人参与

# 你会为了工作牺牲生活吗？ #

64879次浏览 438人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务