数据分析师精选面经合集
4家公司
6篇面经
最新 热门
/feed/main/detail/d5f4c62a6b194751986f41f4799780fc/feed/main/detail/6acdf880b9124789903d0cbebb83cbad/feed/main/detail/b9daede8bedc41a4b15f39b50ffab0a8/feed/main/detail/c79c5b71e4634abb87c5062bc71db98a/feed/main/detail/ec8f66417912447882b7c5302d9909dc/feed/main/detail/f21ca58603ac4d50b25c710a92c6a73e
头像
11-24 19:03
已编辑
门头沟学院 数据仓库
数新智能 数据开发 一面
30分钟 0.自我介绍1.谈了谈有无考公考研的打算2.回归正题 介绍项目(某硅谷的离线实时,还有paimon湖仓)讲了讲ads层指标什么三天登录,用户流向分析之类的,我说这三个项目指标都差不多问了我在哪做的,我说在自己虚拟机上部署的问数据来源,我说是有模拟生成业务库数据和日志数据的jar包,然后讲了一个这两条链路的数据的路径,maxwell,flume,kafka什么的然后问我paimon湖仓 怎么做的  我说paimon湖仓用官方的mysql-paimon的包直接进行同步,代替了maxwell然后我说paimon的snapshot+tag代替了传统离线的拉链表,感觉很方便,问我什么地方做的拉链,我说的用户表,然后我又讲了讲hdfs的小文件,paimon怎么解决的实时写入的小文件问了有没有遇到过什么问题  我说遇到执行任务的时候doris fe节点崩溃,查不到数据,然后我就一直扩大内存,虚拟机也搞得一台25g了3.flink怎么保证数据不丢不重   我答了kafka支持事务,checkpoint记录状态和kafka消费位点,又讲了paimon sink的时候自动清除没有snapshot指向的manifest来删除故障前多读的数据,说了一堆paimon相关的,比如lsm树文件结构,checkpoint时产生snapshot,还有paimon写入文件的大概流程4.数据倾斜  我说的原因就是比如短视频业务下某个视频火了产生热点key,导致某个分区数据特别多,可以用flink的重分区算子,写代码加盐打散,或者自定义kafka的分区逻辑5.sql优化  我说的谓词下推提前过滤,多表join优先join小表,还有starrocks,doris这些olap引擎的CBO优化查询,讲了starrocks物化视图是一个实际读出来的表,可以设置新鲜度来变更读的频率,而且CBO会自动查询sql语句的查询结果是不是某个物化视图的子集,以此来优化,然后这些引擎底层也会帮我们做些优化。6.问我知道paimon的结构化非结构化数据的存储格式吗    不知道,没接触过6.1讲一下什么是湖仓一体 我说是湖的各种数据都能存和仓的规范的,规定好字段名,类型等元数据便于分析的能力的结合,我自己又说了一些什么schema on write,read之类的7.问我还知道什么数据湖技术  我说iceberg,hudi 区别我之前看过,但是忘了,我就记得paimon和flink的集成比较好,比较亲儿子,然后就没问了8.怎么看现在很多人都投身大模型行业   我说的感觉很正常,因为这个ai本身看着就很吸引人()8.1我说我用过那个阿里云的data什么,面试官说dataworks是吧,就是我们之前做的,问我还用过什么,我说阿里云的flink,fluss都用过,也用过神策,然后面试官讲了讲他们的产品8.2说了说我做过的其他东西,我说我搭建过网站,做过抖音小游戏但是上架太麻烦()9.英语好不好  我答:半废   面试官说那海外业务就不考虑你了10.怎么看data+ai (因为我简历上写了了解data+ai)我说的就是从前我们用个什么库只能对文字完成基本情感的正负分析,而引入了大模型就可以做出更精确的判断,比如用在用户直播间识别弹幕给主播提建议,或者金融行业智能agent检测到风险实时邮件通知之类的反问 15分钟1.flink现实市场上用的多不多2.paimon这类数据湖到底用的多不多当时忘录音了(),有的问题记不清了整场面试也是又说有笑,面试体验给到夯()🤠🤠🤠
查看21道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/3769fba1940b4dd3a0b94b2607fd32c3/feed/main/detail/5b0b41edd6364a758ed7f2548a550229/feed/main/detail/057c958607cb4d2ba04a192839b24b9b/discuss/820460075801128960/discuss/820412855202623488/feed/main/detail/cc5234be9ca74a11ad165ce83655467c/feed/main/detail/7d42755bff0c443eb074e1df2f368e28/feed/main/detail/773e18b5fdc3413a8d1f18fa37546fa7/feed/main/detail/1a5922db93884d6ebd6005997dd2bb8f/discuss/818875295569563648/feed/main/detail/7426c64219a04af4a2cce84f36335103/feed/main/detail/c1f20feb1f584dcfb55f2f11c032db92
阿里云大数据数仓面经
1.对 Hadoop 各组件之间通信所使用的 RPC协议的具体内容2.Hadoop 中读数据的完整流程(包括客户端发起请求、与 NameNode 交互、与 DataNode交互等各环节)3.在数据传输过程中,若 DataNode 突然挂掉,Hadoop 系统会如何处理(包括任务重试、数据副本恢复等机制)4.HBase 源码的核心模块、关键类及底层实现窪捞轶货嶍瑛冶辑(如数据存储、读写流程等相关源码细节)5.在 HBase 中构建二级索引时,通过何种方式或机制保证索引数据与原始数据的一致性(如事务控制、同步更新策略等6.JVM 的具体架构(包括程序计数器、方法区虚拟机栈、本地方法栈、堆等组成部分);堆内存的划分的原理及适用场景;以及平时实际工作中是否会调整GC算法调整的依据是什么7.JVM 参数中,-Xms(初始堆大小)和-Xmx(最大堆大小)仅设置其中一个,与同时设置两个且值相同的情况下,对 JVM 运行产生的具体区别8.如何通过命令或工具查看当前 Java 进程中内存各代(新生代的 Eden 区、Survivor区,老年代等)的内存占比情况9.用于查看 Java 进程中线程堆栈信息的具体命令(如 jstack 等)及使用方法10.如何查看 Java 进程中某个对象的具体大小包括对象本身及引用的对象所占用的内存),可使用的命令或工具及操作步骤11.排查堆内存泄露的方法,除了将堆内存Dump 出来用MAT(Memory AnalyzerTO01)分析之外,还有哪些更简单直接的排查方式
查看11道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/1542671607cc45f68d51b3d5a5089863
京东数据仓库校招面经
1.列举几种数据倾斜的情况,并解释为什么会倾場咏,以及如何解决?2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.idWHERE a.dt='2016-01-01'AND b.dt='2016-01-01';3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq9.Storm 的分组策略有哪些?
点赞 评论 收藏
分享
/feed/main/detail/a6bf0074186549b2aecd311cee659db4
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务