微众大数据开发高频面试题及答案【附JD分析】

推荐阅读文章列表:大数据开发面试笔记V4.0 || 面试聊数仓第一季 || 小白大数据学习路线

一、JD分析

根据业务方提供的需求,完成数仓建模开发【考察业务理解和SQL能力

深入理解需求,建立核心指标,完成数据质量监控【考察业务理解和数据质量保障能力

二、高频面试题总结

1. 如何进行数据质量监控

从四个原则来回答:【每个原则再结合实际来举例,吊打面试官,不懂的评论区讨论一下

  1. 准确性
  2. 完整性
  3. 一致性
  4. 及时性

2. 讲一下项目中是如何分层的

先简单介绍五层架构:ods、dwd、dwm、dws、ads

然后介绍为什么这样分层,每一层干了什么

3. MapReduce的过程

  • map阶段:首先通过InputFormat把输入目录下的文件进行逻辑切片,默认大小等于block大小,并且每一个切片由一个maptask来处理,同时将切片中的数据解析成<key,value>的键值对,k表示偏移量,v表示一行内容;紧接着调用Mapper类中的map方法。将每一行内容进行处理,解析为<k,v>的键值对,在wordCount案例中,k表示单词,v表示数字1 ;
  • shuffle阶段:map端shuffle和reduce端shuffle,详细内容见 最新大数据开发面试笔记V4.0
  • reduce阶段:key相同的数据会调用一次reduce方法,每次调用产生一个键值对,最后将这些键值对写入到HDFS文件中。
  • 4. 写过UDF函数没

    • 写过,在进行count distinct优化的时候,实现了bitmap的创建以及计算功能
    • UDF主要分为三类,包括udf、udaf、udtf
    • 在创建UDF函数的时候,只需要按照重写固定的重写方法就行了

    5. Spark和MapReduce的区别

  • MapReduce需要将计算的中间结果写入磁盘,然后还要读取磁盘,从而导致了频繁的磁盘IO;而Spark不需要将计算的中间结果写入磁盘,这得益于Spark的RDD弹性分布式数据集和DAG有向无环图,中间结果能够以RDD的形式存放在内存中,这样大大减少了磁盘IO。
  • MapReduce在shuffle时需要花费大量时间排序,而spark在shuffle时如果选择基于hash的计算引擎,是不需要排序的,这样就会节省大量时间。
  • MapReduce是多进程模型,每个task会运行在一个独立的JVM进程中,每次启动都需要重新申请资源,消耗了大量的时间;而Spark是多线程模型,每个executor会单独运行在一个JVM进程中,每个task则是运行在executor中的一个线程。
  • #数据人的面试交流地##秋招的第一个offer,大家都拿到了吗##秋招##大数据开发#
    全部评论
    微众的数据开发和数据仓库有什么区别啊
    点赞 回复 分享
    发布于 2023-09-23 13:11 湖北
    bitmap那部份有详细的解释嘛,求
    点赞 回复 分享
    发布于 2023-08-25 11:50 陕西

    相关推荐

    #腾讯云智研发2025实习生招聘#&nbsp;4.1笔试4.10一面4.17二面(本来应该是4.15,但是那天网络不太行推迟了)腾讯云智&nbsp;数开实习面试凉经(回答的实在依托,我自己都受不了自己😅)自我介绍说下你的项目项目为什么要分不同的主题域项目各个分层是为了什么,为什么要分层order&nbsp;by&nbsp;sort&nbsp;by&nbsp;cluster&nbsp;by&nbsp;distribute&nbsp;by这几个算子的区别有一个表有userid&nbsp;login_time,统计用户最长连续登录天数,说说思路,然后有没有考虑过全量表下的场景数据倾斜怎么处理(给场景)数据加盐怎么做小文件为什么产生,怎么解决map&nbsp;joinzookeeper在大数据组件中的作用zookeeper存hadoop的元数据吗使用过哪些部署hadoop集群的方式使用什么管理hadoop集群如果有一个报表,某个数值异常或者发现错误,如何进行排查,然后如果是数据源有问题,从几百个源表中如何快速定位到出问题的表突然某一天,某个工作流执行的时间比往常慢了,如何排查,如何解决熟悉哪些编程语言有没有通过Java编写过udf函数,udf函数需要实现哪些方法udaf函数和udtf函数介绍下区别(从输入和输出角度)处理过流数据吗流处理如何保证数据一致性,如何保证数据不丢失介绍下自己的优缺点怎么看待大模型你觉得你有哪些优势在刚刚的提问中没有展现出来,你可以展示下反问环节没有手撕环节只记得大概这么多了,没按顺序,凉透了&nbsp;好多问题答不上来,太菜了😭,面试官很漂亮,人也真的很好二面更新了解了下学校课程,深挖项目,出了几个场景题,我回答得很一般,不过从问题中确实学到了很多,以前只会背的一些知识突然就理解了,面试真能带来进步啊。面试官依然很好,很友好,问题也很清楚,生怕你不知道在问什么,给你解释得清清楚楚不愧是大厂#数据人的面试交流地# #数据人offer决赛圈怎么选# #牛客创作赏金赛# #牛客AI配图神器#
    查看72道真题和解析 数据人的面试交流地
    点赞 评论 收藏
    分享
    04-08 20:18
    已编辑
    苏州大学 数据仓库
    点赞 评论 收藏
    分享
    评论
    5
    47
    分享

    创作者周榜

    更多
    牛客网
    牛客企业服务