#

spark

#
5346次浏览 44人互动
此刻你想和大家分享什么
热门 最新
08-20 13:13
已编辑
字节跳动_火山引擎_研发
字节26届校招内推~ Leader直招
🏢公司名称:字节跳动💻招聘岗位:团队介绍:数据平台是字节跳动数据中台部门,为公司多业务线(包括抖音、电商、直播和生活服务等)提供一站式大数据解决方案,涵盖数据的生产、清洗、传输、建模、分析等全流程链路,提供数据开发、实验评估、画像标签、增强分析等多元场景解决能力。同时,数据平台部门也致力于把字节跳动积累沉淀的数据中台解决方案做商业化输出,让更多行业能够应用我们的产品能力构建自己的数据中台。在火山引擎上,我们提供了营销增长套件,数据中台等相关产品解决方案,为泛互联网、金融、汽车、新零售等行业提供了行业解决方案。1、打造业界PB级OLAP引擎,支撑字节跳动主要产品线(如抖音、今日头条)的ETL、湖仓分析场景等;2、参与以Spark、Doris、Presto、Ray、Lance等为代表的大数据引擎内核优化;3、打造基于高并发大流量业务场景的大数据查询服务、任务调度系统、异构数据湖统一元数据服务及权限管理服务的设计和研发;4、参与字节跳动数据引擎的架构设计、业务场景支持、性能优化与降本、稳定性提升。职位要求:1、2026届获得本科及以上学历,计算机相关专业优先;2、熟练掌握Java或C++编程,具备扎实的计算机基础知识(包含数据结构、算法、多线程编程、I/O、操作系统等);3、熟悉Spark、Doris、StarRocks、Presto、Kylin、Hive、Impala、Flink、ClickHouse、Ray、Lance、Paimon、Iceberg、Hudi等主流大数据系统原理及源码优先;4、熟悉主流的OLAP引擎的优化原理,如CBO、向量化执行、物化视图、列式存储、Shuffle优化等。业务发展迅速,海量部门校招hc,福利待遇国内顶级,欢迎大家私信投递简历,超快回复
投递字节跳动等公司10个岗位
点赞 评论 收藏
分享
数据倾斜都有哪些原因?
数据倾斜都有哪些原因?分别从spark、hive的角度分析。1、spark中的数据倾斜:包括spark streaming和sparkSQL。主要表现为:1)executor lost,OOM.shuffle 过程出错;2)Driver OOM;3)单个executor执行时间特别久,整个仍然任务卡在某个阶段不能结束;4)正常运行的任务突然失败。2、hive中常见的数据倾斜:1)key分布不均衡2)业务问题后者业务数据本身的问题,某些数据比较集中3)建表的时候考虑不周4)某些sql语句本身就有数据倾斜,例如:(1)大表join小表:其实小表的key集中,分发到某一个或者几个reduce上的数据远远高于平均值(2)大表join大表:空值或无意义值:如果缺失的项很多,在做join时这些空值就会非常集中,拖累进度。(3)group by: group by的时候维度过小,某值的数量过多,处理某值的reduce非常耗时间。(4)Count distinct:某特殊值过多,处理此特殊值的reduce耗时。3、解决思路:1)业务逻辑方面:从业务逻辑层面来优化数据倾斜(比如两个城市突然做推广活动,导致两个城市的数据猛烈增长100000%,其余的城市的数据量不变的情况下,然后对不同的城市做group的数据统计,这时久会产生数据倾斜。如果我们这时对两个城市单独做count,可能用到两次MR,第一次是打散计算,第二次则是聚合,完成之后再和其他城市做最后的整合)2)程序方面:可以先group by, 再在外面套一层count3)调参4)从业务和数据上解决数据倾斜
社畜职场交流圈
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务