首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
码码呼呼的研究牲
门头沟学院 大数据开发工程师
关注
已关注
取消关注
@老欧讲职场:
字节大数据开发实习面经
怎样设计数据分层?原始数据层 ODS:此层包含从各种数据源获取的未处理的原始数据。这些数据可能来自于业务系统、日志文件、外部数据提供商等。数据在这一层通常以最原始的形式存储,没有进行任何加工处理。数据处理层 DWD:在此层,原始数据经过清洗、验证、转换等处理,以适应后续的数据分析需求。处理过程可能包括数据的格式化、空值处理、错误数据剔除、数据类型转换、数据编码等。数据聚合层 ADS:在此层,处理后的数据根据业务需求进行聚合。这可能包括事实表的创建、维度的建立、计算指标的生成等。数据在这一层通常以数据仓库模型(如星型模型或雪花模型)的形式组织。数据服务层 :此层为最终用户提供数据访问服务。这可能包括创建数据视图、数据集市、数据立方体等,以满足不同的数据分析和报表需求。数据在这一层通常以对用户友好的形式提供,如图表、仪表盘、报表等。了解的大数据组件有哪些?Hadoop:Apache Hadoop 是一个开源的分布式计算框架,主要包括 HDFS(Hadoop Distributed File System)和 MapReduce 两个组件。HDFS 用于在大规模集群上存储大数据,而 MapReduce 提供了一种编程模型,用于在 HDFS 上进行分布式数据处理。Spark:Apache Spark 是一个快速的、通用的、大规模数据处理引擎,它提供了一个高级 API,支持 Java, Scala, Python 和 R,以及一个优化的运行时引擎,可以在大规模集群上进行高性能的数据处理。Hive:Apache Hive 是一种建立在 Hadoop 上的数据仓库工具,它提供了一种类 SQL 的查询语言(HiveQL),用于查询、汇总和分析存储在 Hadoop 文件系统中的大规模数据。HBase:Apache HBase 是一个建立在 Hadoop 上的分布式、列式数据库,它用于存储非结构化和半结构化的大规模数据,并提供了实时的数据访问能力。Flink:Apache Flink 是一个针对批处理和流处理的大规模数据处理框架,它提供了一种高效的、分布式的、通用的流处理引擎。Kafka:Apache Kafka 是一个分布式的流处理平台,主要用于构建实时的数据管道和流应用。ZooKeeper:Apache ZooKeeper 是一个分布式的服务协调系统,提供了一种为分布式应用提供一致性服务的机制。spark底层计算原理?RDD:RDD 是 Spark 中的基本数据结构,它是一个分布式的元素集合。每个 RDD 都被分割成多个分区,每个分区都会在集群中的不同节点上进行处理。懒加载:Spark 使用懒加载(lazy evaluation)的方式进行计算。这意味着,当用户对 RDD 执行转换操作(如 map、filter 等)时,这些操作并不会立即执行,而是记录下来,形成一个 "操作图"(或称为 "血缘图")。只有当需要返回结果给驱动程序或将数据写出到文件系统时,这些操作才会真正执行。这种方式可以让 Spark 更有效地优化计算过程。转换和动作:RDD 支持两种类型的操作:转换(transformation)和动作(action)。转换操作会生成一个新的 RDD,如 map、filter 等。动作操作会触发计算并返回结果给驱动程序,如 count、collect 等。持久化:用户可以通过持久化(persist)或缓存(cache)操作来将 RDD 保存在内存中,以便于多次访问。这对于迭代算法或共享数据集等场景非常有用。容错:RDD 通过记录转换操作的 "血缘关系"(lineage)来实现容错。如果某个分区的数据丢失,Spark 可以通过血缘关系重新计算丢失的数据,而不需要进行复杂的数据恢复。调度:Spark 使用一个 DAG(Directed Acyclic Graph)调度器来管理计算任务。Spark 会将操作图划分为多个阶段(stage),每个阶段包含多个任务(task),每个任务对应 RDD 的一个分区的计算。Spark 调度器会尽可能地将需要进行 shuffle 操作的任务放在同一阶段,以减少数据传输的开销。Spark SQL, DataFrame and Dataset:除了基本的 RDD API,Spark 还提供了 Spark SQL 和 DataFrame/Dataset API,这些 API 提供了更高级的数据操作方式,如 SQL 查询和列式操作等。同时,它们还能享受到 Catalyst 优化器的优化,提高计算效率。join底层逻辑嵌套循环连接(Nested Loop Join):这是最基本的 JOIN 实现方式。对于每一行 R 在表 A 中,扫描整个表 B 查找匹配的行。这种方法简单直观,但如果两个表的大小都很大,那么这种方法的效率会非常低。排序合并连接(Sort Merge Join):在这种方法中,数据库首先将两个表按照连接键进行排序,然后同时扫描两个表进行连接。这种方法的优点是不需要索引,并且在两个表的大小差不多时效率很高。但如果两个表的大小差别很大,那么这种方法的效率就不是很高。散列连接(Hash Join):散列连接是一种在内存中通过散列技术处理连接操作的方法。这种方法中,数据库首先选取两个表中的一个(通常是较小的那个),然后根据连接键创建一个散列表。然后,数据库扫描另一个表,并使用相同的散列函数处理连接键,找到在散列表中的匹配行。散列连接在处理大规模数据时效率很高,但它要求至少有一个表(或两个表的一部分)能够放进内存。举例A(3) join B (5) 有几条数据在 SQL 中,JOIN 操作是根据给定的连接条件,将两个表中的行组合在一起。如果你没有给出具体的连接条件,我将假设你是在问一个简单的交叉连接(CROSS JOIN),也称为笛卡尔积。对于表 A 有 3 条记录,表 B 有 5 条记录,做 CROSS JOIN,结果将会有 3 * 5 = 15 条记录。这是因为每一条来自 A 的记录都会与 B 中的每一条记录配对,所以总的配对数就是 A 和 B 中记录数的乘积。然而,如果你是在问其他类型的 JOIN(例如 INNER JOIN,LEFT JOIN,RIGHT JOIN 或 FULL JOIN),那么结果将取决于给定的连接条件以及满足这些条件的行的数量。
点赞 13
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
12-03 11:52
卓驭科技_HR(准入职员工)
卓驭(大疆车载)内推
卓驭 嵌入式中间件实习 面经写一写面经,回馈一下社区。⌚️timeline:五月底👋part1:自我介绍 && 项目介绍1. 项目里的内存占用,资源使用的性能评估?性能优化的思考?2. 端侧大模型的选型?3. 机器人比赛中最难的一个问题?技术方案的选择用了多长的时间?4. 之前实习的主要工作?方案是如何确定的?5. 对车载中间件的了解?6. 。。。忘了🤏part2:八股拷打1. 设计模式?平时开发有用到过哪一些设计模式吗?2. 对多态的了解?静态and动态?3. 虚函数里面父类和子类的交互?4. C++容器中vector和list的差异?5. vector的底层实现原理?扩...
点赞
评论
收藏
分享
12-08 16:00
海康威视_自动化开发工程师(准入职员工)
海康威视内推,海康威视内推码
岗位:武汉 嵌入式开发timeline:8.30 测评,10.9 一面,10.11 二面一面技术:自我介绍讲下实习经历平常怎么debug项目中有没有遇到什么问题,怎么解决的介绍一下学校经历了解数据结构吗?基本的数据结构?查找搜索效率?有什么方法可以提高效率?具体围绕数据结构问了很多RTOS,多任务操作反问:做存储固件的,具体的进来再分二面HR:北京线下,地点在北京研发中心,具体内容就是唠家常,一些HR面的基本问题销售工程师工作体验,总结累但成长很多。1.大家最先关注的就是HIK的工作压力,只能说体面厂没有辜负盛名!名不虚传!我来这边是销售岗,基本上每天都要差不多11点下班。因为销售不仅需要对接...
点赞
评论
收藏
分享
11-10 08:05
河北师范大学 Java
Java实习
大姐 我还没入职呢吧....还有jave是byd什么??我我
用微笑面对困难:
你出于礼貌叫了人一声大姐,大姐很欣慰,她真把你当老弟
点赞
评论
收藏
分享
12-07 17:04
复旦大学 Java
简历是你给面试官的第一印象,一定要好好写!今天继续免费看简历!
简历中的项目经历要怎么写
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
7天10面 来分享一下我的11月面筋!
4061
2
...
零经验也能斩获实习offer
4061
数字马力交流圈
热聊中
3
...
0实习冲明年前端暑期,要不要找寒假实习?
3335
4
...
这环境。。。我来谈谈选择和长期主义
2792
华为进展交流圈
热聊中
5
...
工作两年裸辞读研,我后悔了吗···
2627
6
...
百度网盘Golang开发一面凉经
2447
7
...
都是匆忙的选择,感觉人生真的很儿戏
2351
8
...
小红书26校招Java二面85min
1758
9
...
LangChain4j(Java 版 LangChain)速成教学
1429
10
...
26岁的我,后悔读双非硕士
1414
创作者周榜
更多
正在热议
更多
#
你今年做了几份实习?
#
2334次浏览
42人参与
#
实习必须要去大厂吗?
#
166192次浏览
1651人参与
#
百融云创求职进展汇总
#
8683次浏览
116人参与
#
实习越久越好,还是多多益善?
#
7226次浏览
64人参与
#
刚工作,应该先搞钱or搞成长?
#
3415次浏览
52人参与
#
0经验如何找实习?
#
9174次浏览
206人参与
#
求职低谷期你是怎么度过的
#
23655次浏览
316人参与
#
你是怎么和mt相处的?
#
81905次浏览
426人参与
#
25年找工作是什么难度?
#
5331次浏览
57人参与
#
一上班就想____,这正常吗?
#
1799次浏览
40人参与
#
你开始找寒假实习了吗?
#
5256次浏览
93人参与
#
你找工作经历过哪些骗局?
#
3226次浏览
60人参与
#
离职你会和父母说吗?
#
4695次浏览
61人参与
#
找工作能把i人逼成什么样
#
1087次浏览
19人参与
#
研究所VS国企,该如何选
#
230232次浏览
1954人参与
#
产品每日一题
#
73115次浏览
656人参与
#
面试题刺客退退退
#
490319次浏览
7281人参与
#
如果有时光机,你最想去到哪个年纪?
#
63217次浏览
842人参与
#
你的实习什么时候入职
#
323019次浏览
2182人参与
#
你觉得技术面多长时间合理?
#
153300次浏览
1100人参与
#
你会为了工作牺牲生活吗?
#
64843次浏览
438人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务