荣耀大数据开发凉面面经

年前面试的
流程是机考,测评,再面试
(数仓)一面
聊得还行,不知道怎么挂了。。。可能是Spark这一块了解得太少了
自我介绍
你做的项目数据采集用的什么工具和原理?
有没有做过数据治理?
有没有做过数据血缘关系管理?
数据突增问题有没有遇到过?影响HDFS,如何解决?
Hive表格存储用的哪个?什么原理?
数据某个阶段出现问题了,你怎么样定位出来?
数据倾斜有没有遇到过?怎么处理的?
数据之间的关系怎么设计的?
大数据安全管理???
MR和spark的区别?
元数据管理是什么样的?
元数据生命周期管理?
别的团队开发的东西影响你的数据处理过程,怎么样发现和处理?
你的项目中数据分层是怎样的?
RDD概念?
实时的工具有没有用过?Spark、Sparkstreaming有没有用过?Flink有没有用过?
全部评论
南京?
点赞
送花
回复
分享
发布于 02-22 11:42 北京
十几分钟怎么问那么多?荣耀面试不是纯聊天吗
点赞
送花
回复
分享
发布于 02-25 19:22 安徽
滴滴
校招火热招聘中
官网直投
问的都挺八股的
点赞
送花
回复
分享
发布于 03-02 10:47 浙江

相关推荐

Gaussdb是什么数据库Gaussdb和Doris有什么区别数据湖和数据仓库有什么区别hudi中你们用的哪种表类型hudi怎么实现实时数据更新的HIVE有哪些模块知道HIVE的thrift吗,有什么好处生产中是用哪种方式连接HIVE的,会用jdbc连接吗知道哪些spark的运行模式yarn-client和yarn-cluster的区别是什么,从中选一个运行模式具体介绍下select a,sum(b) where c>0 group by a。spark中是怎么实现的,你觉得这个语句什么情况下会出现数据倾斜,怎么优化它spark中小文件你怎么处理的我想将数据只写入到10个文件里面,怎么处理,distribute by cast(rand()*10 as bigint)怎么将a字段的值一样的数据写入到同一个文件,并最后只生成5个文件 distribute by mod(a,5)Spark中的Job、stage、task是什么关系spark的Job可以并行执行吗,stage可以并行执行吗,什么情况下stage可以并行执行,举个stage并行执行的例子Flink怎么处理积压的Flink的Exect-Once怎么实现的java的内存空间分哪些怎么让栈空间溢出,怎么让元空间溢出工作中会遇到内存溢出的问题吗内存溢出了你会怎么去分析知道哪些序列化方式,Serializable和protobufprotobuf与Serializable序列化的区别了解数据库连接池吗,是什么原理了解线程池吗,介绍下你知道的SpringBoot相对于Spring MVC的优点Spring中的注解了解哪些数据库的事务知道吗事务的隔离级别有哪些,默认是那种隔离级别你觉得你们公司目前有哪些方面可以改进的,比如工作上的改进、平台上的改进你工作中遇到了哪些难题,怎么解决的作为你的同事,你觉得你能带来什么好处你最近有去学习什么新东西吗,从中学到了什么为什么想来我司所在城市你未来的职业规划是什么#社招面经#
点赞 评论 收藏
转发
9 35 评论
分享
牛客网
牛客企业服务