4.10一面1h自我介绍项目深挖数据倾斜有哪些?怎么解决数仓各分层作用,结合项目来谈mapreduce的shuffle过程项目中小文件问题为什么出现?如何解决项目中指标怎么计算,怎么清洗,过滤算法+sql------------4.15二面1h20min项目深挖数据质量监控(例如如何快速找出“坏数据”)数仓分层作用原子指标、衍生指标区别数据域怎么划分如何构建事实表spark依赖以及血缘广播join以及原理为什么brodcast join 速度快flink的checkpoint机制,举例子小文件问题,数据倾斜sql:直播间不同时段同时在线人数的值算法:求1-n的平方中不重复数位的数字个数-------------4.21 三面 40min项目深挖datax部署flinkcdc拉取mysql中binlog还是表数据粒度数据域和主体域的划分,用项目举例拉链表事实表分类?各个作用讲讲指标计算的整体过程(怎么取数、怎么计算)sql+算法---------------4.23HR面 15min聊了聊待遇、未来打算、自己的优缺点以及为什么会选择字节当晚oc---------------4.27 offer#字节##数据开发#