#

spark

#

7281次浏览 46人互动

此刻你想和大家分享什么

热门最新

08-20 13:13

已编辑

字节跳动_火山引擎_研发

字节26届校招内推~ Leader直招

🏢公司名称：字节跳动💻招聘岗位：团队介绍：数据平台是字节跳动数据中台部门，为公司多业务线（包括抖音、电商、直播和生活服务等）提供一站式大数据解决方案，涵盖数据的生产、清洗、传输、建模、分析等全流程链路，提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时，数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出，让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上，我们提供了营销增长套件，数据中台等相关产品解决方案，为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。1、打造业界PB级OLAP引擎，支撑字节跳动主要产品线（如抖音、今日头条）的ETL、湖仓分析场景等；2、参与以Spark、Doris、Presto、Ray、Lance等为代表的大数据引擎内核优化；3、打造基于高并发大流量业务场景的大数据查询服务、任务调度系统、异构数据湖统一元数据服务及权限管理服务的设计和研发；4、参与字节跳动数据引擎的架构设计、业务场景支持、性能优化与降本、稳定性提升。职位要求:1、2026届获得本科及以上学历，计算机相关专业优先；2、熟练掌握Java或C++编程，具备扎实的计算机基础知识（包含数据结构、算法、多线程编程、I/O、操作系统等）；3、熟悉Spark、Doris、StarRocks、Presto、Kylin、Hive、Impala、Flink、ClickHouse、Ray、Lance、Paimon、Iceberg、Hudi等主流大数据系统原理及源码优先；4、熟悉主流的OLAP引擎的优化原理，如CBO、向量化执行、物化视图、列式存储、Shuffle优化等。业务发展迅速，海量部门校招hc，福利待遇国内顶级，欢迎大家私信投递简历，超快回复

投递字节跳动等公司7个岗位

点赞评论收藏

分享

2023-02-22 17:18

门头沟学院大数据开发工程师

数据倾斜都有哪些原因?

数据倾斜都有哪些原因?分别从spark、hive的角度分析。1、spark中的数据倾斜：包括spark streaming和sparkSQL。主要表现为：1）executor lost，OOM.shuffle 过程出错；2）Driver OOM；3）单个executor执行时间特别久，整个仍然任务卡在某个阶段不能结束；4）正常运行的任务突然失败。2、hive中常见的数据倾斜：1）key分布不均衡2）业务问题后者业务数据本身的问题，某些数据比较集中3）建表的时候考虑不周4）某些sql语句本身就有数据倾斜，例如：（1）大表join小表：其实小表的key集中，分发到某一个或者几个reduce上的数据远远高于平均值（2）大表join大表：空值或无意义值：如果缺失的项很多，在做join时这些空值就会非常集中，拖累进度。（3）group by： group by的时候维度过小，某值的数量过多，处理某值的reduce非常耗时间。（4）Count distinct：某特殊值过多，处理此特殊值的reduce耗时。3、解决思路：1）业务逻辑方面：从业务逻辑层面来优化数据倾斜（比如两个城市突然做推广活动，导致两个城市的数据猛烈增长100000%，其余的城市的数据量不变的情况下，然后对不同的城市做group的数据统计，这时久会产生数据倾斜。如果我们这时对两个城市单独做count，可能用到两次MR，第一次是打散计算，第二次则是聚合，完成之后再和其他城市做最后的整合）2）程序方面：可以先group by, 再在外面套一层count3）调参4）从业务和数据上解决数据倾斜

社畜职场交流圈

点赞评论收藏

分享

2024-11-27 22:52

成都信息工程大学算法工程师

大家好啊啊啊啊，目前大三上，学了hadoop,hive,spark，做了一个离线数仓的项目，之后又去学了kafka、flink，现在打算做一个实时的数仓，我这个方向是对的吗？如果打算年后找实习的话，有没有好的建议呢？

绝顶但不聪明：路径没问题，搜个实习简历包装一下自己的项目，就差不多了。

点赞评论收藏

分享

10-28 20:32

已编辑

卡内基·梅隆大学全栈开发

国内科技公司数据基础设施需求热度榜单

MySQL: 国民级关系型数据库，是Web应用和大多数互联网公司的默认选择，普及度极高。Redis: 缓存领域的绝对王者，是网站/App高并发访问的必备神器，普及度100%。Spark: 一个非常快的分布式计算引擎，大数据领域的绝对核心，是数据处理任务的标配，普及度和认可度无可撼动。Hive: 它让你可以用写SQL的方式去分析存在HDFS上的海量数据。大数据领域曾经的绝对核心和入门必备。Hadoop: 大数据技术的基石（HDFS：存，MapReduce：算），普及度100%，是入门大数据的起点。Flink: 实时计算的标杆，与Spark构成批流一体两大巨头，在国内大型互联网公司中应用非常广泛。Kafka: 高吞吐消息队列。事实上的标准，是数据管道、微服务通信的绝对核心。ES: 搜索和日志分析领域的标配，普及度极高。Oracle: 又大又贵又稳，银行、政府、大国企的“标配”。HBase: 一个巨大的NoSQL仓库。互联网公司用于存储日志、用户行为等海量数据，普及度很高。ClickHouse: 近年来极度火爆，是实时数据分析领域的明星，各大公司都在用，社区非常活跃。Doris: 源自百度的全能型分析仓库。既能高并发查询，也能做实时分析，在很多公司逐步替代其他复杂方案。HDFS: HDFS是分布式文件存储系统，一个由无数台机器硬盘组成的专门用来存海量文件的大存储系统。RabbitMQ: 传统消息队列的首选，但在超高吞吐量的数据流场景不如Kafka。ZooKeeper: 分布式系统的基石，虽然近年来有etcd等挑战者，但其在Hadoop生态中的核心地位暂时无法撼动。Presto: 可以让你用一条SQL语句同时查询MySQL、Hive、Kafka等多个数据源，快速拿到结果。几乎所有大数据平台都会部署。SQL Server: 微软全家桶专用数据库。Iceberg: 主流数据湖表格式技术之一，由Netflix开源。Hudi: 主流数据湖表格式技术之一，由Uber开源。Cassandra: 高可用的分布式仓库，更强调“无单点故障”，在任何地方都能读写。在国内不如HBase普及。

点赞评论收藏

分享

2024-04-14 12:05

门头沟学院大数据开发工程师

奇安信|大数据面经|这公司现在还能去么？😂

模型开发的流程，需求调研过程中有哪些人员参加，调研过程，你会输出什么文档？如何保障数据质量（准确性）？spark有什么优缺点？在使用过程如何规避缺点？spark内存模型？spark和MR为什么会进行shuffle，如何减少shuffle？小文件治理的方式？主题域建设的流程？大表join大表的优化（10亿与1千万数据关联）？为什么存在ods穿透？为什么离职，旧公司工作强度如何？这公司现在还能去么？我真的哭死。

查看11道真题和解析

点赞评论收藏

分享

2022-03-22 23:05

云南师范大学大数据开发工程师

我是大数据专业22应届生，今年考研本校上线，上岸基本稳了，但因为想检验一下本科的学习成果，所以想找一个大数据实习，最好能用到hadoop生态圈的组件和spark系统栈。不过截止目前发现大部分岗位都只要23届的，所以想求助一下各位大佬，问问大家这种情况要怎么去找合适的实习岗位，简历应该要怎么优化，该做些什么准备工作。

大数据求职圈

点赞评论收藏

分享

07-06 15:32

已编辑

上海财经大学 Java

Spark SQL架构及高级用法

Spark SQL 架构概述 架构核心组件   API层（用户接口）  输入方式： SQL查询；DataFrame/Dataset API。 统一性： 所有接口最终转换为逻辑计划树（Logical Plan），进入优化流程。    编译器层（Catalyst 优化器）   核心引擎： 基于规则的优化器（Rule-Based Optimizer, RBO）与成本优化器（Cost-Based Optimizer, CBO）。   处理流程：    阶段 输入 输出 关键动作     解析 SQL/API 操作 未解析逻辑计划 构建语法树（AST），校验语法正确性   分析 未解析逻辑计划 解析后逻...

点赞评论收藏

分享

06-14 14:53

上海财经大学 Java

Spark RDD 及性能调优

RDD Programming RDD 核心架构与特性   分区（Partitions）：数据被切分为多个分区；每个分区在集群节点上独立处理；分区是并行计算的基本单位。   计算函数（Compute Function）：每个分区应用相同的转换函数；惰性执行机制。   依赖关系（Dependencies）   窄依赖：1个父分区 → 1个子分区（map、filter）。   宽依赖：1个父分区 → 多个子分区（groupByKey、join）。     分区器（Partitioner）：仅存在于键值对RDD；决定数据如何分区，HashPartitioner（默认）、RangePartitione...

点赞评论收藏

分享

06-08 17:13

上海财经大学 Java

Apache Spark详解

Apache Spark Introduction Spark Introduction  定义： Apache Spark 是一个开源的、分布式、统一的计算引擎，专为大规模数据处理而设计。 核心目标： 提供高速（Lightning-Fast）、易用且通用的数据处理能力。  Spark 性能关键  内存计算 (In-Memory Computing)： Spark 尽可能将中间数据保留在集群内存中，避免了传统 MapReduce 需要反复读写磁盘的瓶颈，极大提升迭代算法和交互式查询速度。 有向无环图 (DAG) 执行引擎：  Spark 将用户程序构建成一个 DAG（Directed Acyc...

点赞评论收藏

分享

04-06 09:53

长春工业大学测试工程师

如何在 Spark SQL 中进行表的分区和分桶？两者的区别是什么？

Spark SQL 表分区与分桶详解一、表分区（Partitioning）定义：通过指定业务相关字段（如日期、地域）将数据物理划分为独立目录存储，实现垂直切分。核心特性：目录结构映射：/table/path/partition_column=value/分区裁剪：自动跳过无关分区，减少I/O适用场景：有明显时间范围查询（如WHERE dt='2023-01-01'）创建语法： -- 静态分区表 CREATE TABLE logs ( user_id STRING, event STRING ) PARTITIONED BY (dt STRING, country STRING) STORED ...

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务