首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
在人才库的大师兄很细致
浙江大学 产品经理
发布于浙江
关注
已关注
取消关注
@老欧讲职场:
10.18 荣耀、知乎、猫眼面试题总结!!!
先把题目贴出来,答案贴一部分。。。题太多了,后面陆续更新。。荣耀大数据Hive 一般有什么调优方式?Hive 的调优方式包括以下几个方面:数据分区:通过在表中定义分区,可以将数据按照指定的列进行分割,提高查询效率。数据压缩:对于存储在 Hive 中的大数据集,可以使用压缩算法对数据进行压缩,减少存储空间,提高查询性能。合理设置表的存储格式:Hive 支持多种存储格式,如ORC、Parquet等。选择合适的存储格式可以提高查询性能。使用索引:对于经常需要进行查询的列,可以创建索引,加快查询速度。调整查询引擎的参数:可以通过设置 Hive 的相关参数,如内存分配、并行度等来优化查询。数据倾斜处理:当数据在某些列上倾斜时,可以使用一些技术手段,如改变数据分布、使用随机前缀等方式来解决数据倾斜问题。数据预处理:在数据加载到 Hive 前,对数据进行预处理,如清洗、过滤、聚合等,可以减少后续查询时的计算量。使用合适的硬件资源:合理使用硬件资源,如增加内存、调整磁盘读写速度等,可以提高 Hive 的性能。以上是一些常见的 Hive 调优方式,根据实际情况可以选择适合的方法进行优化。HDFS 读写流程?HDFS(Hadoop分布式文件系统)的读写流程如下:写入流程:a. 客户端将要写入的数据切分成固定大小的数据块(默认大小为128MB),并与NameNode通信以获取一个可用的DataNode列表。b. 客户端选择一个DataNode作为主节点,并将数据块写入该主节点。c. 主节点将数据块复制到其他DataNode节点,以提供数据冗余和容错性。d. 所有副本写入成功后,主节点将确认写入操作,并向客户端发送成功的响应。读取流程:a. 客户端向NameNode请求读取文件,并获取包含文件块信息的元数据。b. 客户端根据文件块信息选择一个DataNode作为主节点,并向其发送读取请求。c. 主节点返回所请求数据块的副本位置列表给客户端,客户端按照距离和可用性选择一个DataNode进行读取。d. 客户端与所选择的DataNode建立连接,并从该节点读取数据块。e. 如果所选择的DataNode无法提供数据块,则客户端将尝试连接其他副本位置的DataNode。以上就是HDFS的基本读写流程。通过数据切块和复制,HDFS实现了高可用性和容错性,同时通过数据本地性和并行读取,提供了高效的读取性能。Spark 有什么算子?转换算子(Transformation):用于对RDD数据集进行转换操作,生成新的RDD。常用的转换算子有map、filter、flatMap、groupByKey、reduceByKey等。行动算子(Action):用于对RDD数据集进行触发计算操作,返回结果或将结果输出到外部存储系统。常用的行动算子有collect、count、reduce、take、foreach等。键值对算子(Key-Value):用于对键值对类型的RDD数据集进行操作。常用的键值对算子有groupByKey、reduceByKey、sortByKey、join等。排序算子(Sorting):用于对RDD数据集进行排序操作。常用的排序算子有sortBy、sortByKey等。连接算子(Joining):用于将两个RDD数据集按照特定的规则进行连接操作。常用的连接算子有join、leftOuterJoin、rightOuterJoin等。文件操作算子(File Operations):用于读取和写入文件数据。常用的文件操作算子有textFile、saveAsTextFile等。广播变量算子(Broadcast Variables):用于在集群中共享变量,以提高性能和减少网络传输。常用的广播变量算子有broadcast等。Spark 一般有什么调优方式?Spark 一般有以下几种调优方式:增加硬件资源:增加集群中的节点数量、增加每个节点的CPU、内存和磁盘容量等,以提高整体的计算和存储能力。数据分区和缓存:合理划分数据分区,使每个分区的大小适中,以提高并行处理能力。同时,将频繁访问的数据进行缓存,减少磁盘IO开销。并行度设置:根据集群资源的情况,合理设置并行度参数,以充分利用集群资源,提高计算效率。内存管理:通过调整Spark的内存分配策略,如调整executor内存大小、调整内存分配比例等,以避免内存溢出或频繁的GC操作。数据压缩和序列化:对于大规模的数据集,可以考虑使用压缩算法进行数据压缩,减少网络传输和存储开销。同时,选择合适的序列化方式,如Kryo序列化,以提高性能。并行算法选择:根据具体的计算场景,选择适合的并行算法,如广播变量、累加器等,以提高计算效率。数据倾斜处理:针对数据倾斜的情况,采用合适的处理方式,如使用Spark提供的一些解决方案,如随机前缀、分桶等。调整任务数量和分配:根据集群资源的情况,调整并行任务的数量和分配,以充分利用集群资源,避免资源浪费。数据预处理:在数据处理之前,进行合适的数据预处理,如数据过滤、数据采样等,以减少数据量和提高计算效率。监控和调优:使用Spark提供的监控工具和日志,及时监控集群的运行情况,发现潜在的性能瓶颈,并进行相应的调优。Spark 数据倾斜如何解决?Spark数据倾斜是指在数据处理过程中,某些分区的数据量明显偏大,导致计算过程中负载不均衡的情况。解决Spark数据倾斜可以采取以下几种方法:Shuffle操作优化:Shuffle操作是Spark中常见的导致数据倾斜的原因之一。通过使用合适的分区策略,如使用HashPartitioner,可以将数据更均匀地分布在不同分区中,从而减少数据倾斜的可能性。增加并行度:通过增加并行度,即增加Spark作业的并发执行量,可以分摊负载,减轻数据倾斜的影响。可以通过增加Executor数量、调整Executor内存等方式来提高并行度。数据预处理:对于可能导致数据倾斜的操作,可以进行数据预处理来平衡数据分布。比如,可以对数据进行采样,根据采样结果进行数据重分布,使数据更均匀地分布在各个分区中。增加随机性:在一些可能导致数据倾斜的操作中,引入随机因素可以减少数据倾斜的概率。比如,在进行ReduceByKey等聚合操作时,可以在Key上增加随机前缀或后缀,使相同Key的数据随机分布到不同分区中。使用自定义分区器:通过自定义分区器,可以根据业务逻辑将数据更均匀地分布到不同分区中,从而减少数据倾斜的发生。自定义分区器可以根据数据的特点和业务需求进行定制。数据重分区:当数据倾斜发生时,可以通过对倾斜分区进行数据重分区来解决。可以将倾斜分区的数据划分为更小的子分区,然后将这些子分区与其他正常分区进行合并,从而使数据更均匀地分布。知乎大数据Flink 的 Checkpoint 是什么?Flink的反压的机制是什么?Flink的状态后端有哪些?Kafka一定不会丢数据嘛?Spark的内存模型?数据仓库的意义?如何衡量一个好的数仓?Hive的执行计划是什么样子?猫眼大数据Java String builder和String buffer区别?Java String为什么是不可变的?为什么要设计成不可变?Java 泛型了解吗?Java反射了解吗?常用的反射方法?Java集合类型?Java数组和链表的区别?Java讲讲HashMap原理?转换成红黑树条件?为什么这么设计?Java线程安全的HashMap?ConcurrentHashMap和HashTable的区别?ConcurrentHashMap原理?Java进程切换如何保证能够回到之前的执行位置?JVM里面的内存结构?Java线程池作用?线程池参数?Hive内部表和外部表区别?Hive UDF类别?实现步骤?Hive存储文件格式?行存储和列存储区别?举几个开窗函数例子?什么要有开窗函数,和聚集函数区别?MySQL聚簇索引和非聚簇索引区别?回表操作?HBase读写原理?HBase存储结构?LSM树原理?
点赞 13
评论 1
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
12-06 11:57
复旦大学 Java
Redis刷题题库
1.Redis为什么快? 基于内存操作:Redis的绝大部分操作在内存里就可以实现,数据也存在内存中,与传统的磁盘文件操作相比减少了IO,提高了操作的速度。高效的数据结构:Redis有专门设计了STRING、LIST、HASH等高效的数据结构,依赖各种数据结构提升了读写的效率。采用单线程:单线程操作省去了上下文切换带来的开销和CPU的消耗,同时不存在资源竞争,避免了死锁现象的发生。I/O多路复用:采用I/O多路复用机制同时监听多个Socket,根据Socket上的事件来选择对应的事件处理器进行处理。2.为什么Redis是单线程?单线程指的是:网络请求模块使用单线程进行处理,其他模块仍用多个线程...
点赞
评论
收藏
分享
12-04 09:47
OPPO_AI算法部_AI研究员(准入职员工)
霸王茶姬内推,霸王茶姬内推码
1️⃣霸王茶姬面经(hr面) “简单自我介绍一下” 我大概讲了专业成绩和获奖等,我特意提到了我在社团有过活动策划的经历 “嗯有过活动策划经历是吧,说一下你对最近的市场热点有关注吗” “你了解霸王茶姬吗?就你的了解说一下” “你知道我们最近做的活动吗?” “你觉得你的沟通能力怎么样” “你知道达人是什么吗” “你了解我们这个岗位吗” “你觉得以你的经历,能为这个岗位带来什么,你做这个岗位的优势是什么” “你从大学城到公司大概要多久” -反问环节 问了薪资和上下班时间之类的 2️⃣霸王茶姬复试面经(部门主管面) “简单介绍一下自己” “你觉得做一个活动策划最重要的是什么” “你想从我们这个实习中获...
点赞
评论
收藏
分享
11-24 22:32
西安电子科技大学 Java
找实习好累,好难找
Bos打200多次招呼,才投了14份简历,在官网上也投投投。到现在就1个28号的面试是简历的问题吗
投递大连飞创信息技术有限公司等公司6个岗位
点赞
评论
收藏
分享
11-25 16:38
天津滨海职业学院 测试开发
稳啦
哈哈哈 和你们开玩笑的
想进开水团喝开水:
哦 给我一个
就算你真拿到牛友也会为你开心的
点赞
评论
收藏
分享
12-05 16:49
华南师范大学
26校招 平安产险科技管培生
市场管培生,hr挺实在的,说是to B,应该是团渠,是一线对接客户的,还是看自己适应能力强不强吧,我可以适应大部分环境,希望自己可以慢慢做得好的,不要提前给自己设太多限制了。
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
7天10面 来分享一下我的11月面筋!
4584
2
...
零经验也能斩获实习offer
4480
数字马力交流圈
热聊中
3
...
0实习冲明年前端暑期,要不要找寒假实习?
3840
4
...
这环境。。。我来谈谈选择和长期主义
3080
华为进展交流圈
热聊中
5
...
都是匆忙的选择,感觉人生真的很儿戏
2987
6
...
百度网盘Golang开发一面凉经
2899
7
...
工作两年裸辞读研,我后悔了吗···
2857
8
...
小红书26校招Java二面85min
1910
9
...
27届-哈啰-后端开发实习-一面
1776
10
...
成都java小厂 日常实习一面面经 25min
1729
创作者周榜
更多
正在热议
更多
#
你今年做了几份实习?
#
2536次浏览
43人参与
#
实习必须要去大厂吗?
#
166500次浏览
1651人参与
#
百融云创求职进展汇总
#
9044次浏览
118人参与
#
实习越久越好,还是多多益善?
#
7865次浏览
68人参与
#
刚工作,应该先搞钱or搞成长?
#
3654次浏览
55人参与
#
0经验如何找实习?
#
9855次浏览
215人参与
#
求职低谷期你是怎么度过的
#
23718次浏览
316人参与
#
你是怎么和mt相处的?
#
81988次浏览
426人参与
#
25年找工作是什么难度?
#
5662次浏览
58人参与
#
一上班就想____,这正常吗?
#
1945次浏览
41人参与
#
你开始找寒假实习了吗?
#
5475次浏览
97人参与
#
你找工作经历过哪些骗局?
#
3445次浏览
61人参与
#
离职你会和父母说吗?
#
4923次浏览
63人参与
#
找工作能把i人逼成什么样
#
1363次浏览
19人参与
#
研究所VS国企,该如何选
#
230307次浏览
1954人参与
#
产品每日一题
#
73189次浏览
656人参与
#
面试题刺客退退退
#
490492次浏览
7286人参与
#
如果有时光机,你最想去到哪个年纪?
#
63273次浏览
842人参与
#
你的实习什么时候入职
#
323109次浏览
2182人参与
#
你觉得技术面多长时间合理?
#
153371次浏览
1101人参与
#
你会为了工作牺牲生活吗?
#
64879次浏览
438人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务