数据分析师精选面经合集
4家公司
6篇面经
最新 热门
/feed/main/detail/0be6381d269e4c089b069b982506f5d7
07-09 17:07
已编辑
西安交通大学 C++
快star-x二面凉经
一面主要是问项目,问的比较细,没有八股,算法题leetcode100里面的子数组最大和面完秒过,下午发二面通知二面面试官说他们说做数据库的,可能看我简历上没有多少数据库的东西,所以一直在拷打八股还有数据库过程如下(注:长文本来自于录音)自我介绍问题1:库场景题acid的定义,解释一下问题2:场景题问到了事务「提交可见性」与「刷盘策略」的核心本质,举了转账的例子。这个问了好久问的很深,后面挂了可能和这个有关系问题3:你刚说隔离级别有哪些啊?问题4:可重复读能解决换读问题吗?为什么?追问:换读就是相对于不可重复读一个两个区别,就是一个是在一行上,一个是在一个一段区间上是吧这个?问题5:你说比如说Repeatable Read对吧?它能够解决可重复的问题,它是怎么解决的这?问题6:什么是读写冲突,写读冲突,区别?问题7:场景题呃OK呃,我想想,比如说我现在有两个事物,对吧a事物先开始了,然后先开始我现在写呃,我现在读一条数据,然后但是它后期交就先开始后期交,然后b事务是后开始先提交那b事务跟a事务,比如b事务写了一个值a事务,先读了这个值读了个a对吧a是个旧值,然后b说我改了这个值,改了以后然后a是我后面提交了对吧,在在他之后提交了,那他们会他们这个时候这种现象是叫什么现象?追问1:你刚刚说的写偏差是什么意思追问2:如何解决?问题8: ACID的C和CAP的C一样吗?解释一下问题9:场景题呃,我聊点别的吧,我想想呃,我们聊操作系统啊,我现在有一个进程进程名,我我开两个线程,这两个线程同时去读,写一个全局的int 64,一个变量a线程去写b线程去读,那么b线程就a线程先发生b线程会发生这个绝对时间上b线程一定能够读到a线程修改以后的值吗?问题10:同步机制原理,同步原语的底层原理,为什么加锁或同步能让跨核线程看到最新值。追问:happens-before」关系问题11:场景题呃,比如说你看呃,我们回到最开始我们说redo log对吧,你写每次写的时候redo log你是需要刷盘对吧?那么我现在问题是说,比如说我假设我调redo log调redo命令对吧?他给我返回一个乘返回一个零值ST,那么我这个数据一定会落盘成功吗?问题12:场景题呃我再问个问题啊呃假设我现在一个客户端跟服务端对吧我建了个tcp连接然后呃这个时候客户端和服务端之间我现在没有消息通信对吧就连接已经进了但是没有消息通信这个是我上去我直接我直接把网线给拔了这个时候客户端能够感知到这个网线没拔了吗追问:可是我现在不是拔网线,我上去是比如说把对端进程给q了,那这个时候能感知到吗?大概就是这样的强度算法题我感觉是现出的,如下多线程读写锁(Read-Write Lock)设计(C++)给定一个普通互斥锁类 Lock,它有:void Lock() {}void UnLock() {}你需要基于它实现一个 RWLock 类(读写锁),包括:void RLock();    // 加读锁void RUnLock();  // 解读锁void WLock();    // 加写锁void WUnLock();  // 解写锁写出来了,大概讲了一下说没问题反问1:这个算法题写的对不对回答: 没啥问题,大体上反问2:研发团队里面主要是什么群体偏多回答:年轻人反问3:你觉得我和其他应届生对比有什么劣势?面试官想了一下我看他说不上来换了个问法,问我还有哪些提升都空间回答:你在应届生里面算是基础比较好的,基础不错(给的评价还可以,应该是认可了,但是第二天给我挂了)今天中午更新后,流程终止……7 月9 日发现大家喜欢看这种,那我再更新一下一面面经(注:长文本来自录音转文字)自我介绍背景经历问题:我想问的问题在于说嗯我为我看到你投的这个岗位啊,因为其实看到你之前应该也投了一些其他的岗位对吧就是就是嗯嗯想了解一下为什么想去怎么说呢为什么对这个岗位有兴趣,就看之前有一些其他方面的C++呀网络呀,好像进行实习吧。然后最近应聘的一些是容器云呀然后策略流量调度啊一些岗位就是想了解一下嗯你是对这个数据库开发或者底层开发有兴趣呢还是说出于别的考虑还说还还说先先海投一下。追问:我做数据库,做系统底层跟做业务层就做业务系统开发,因为我看你之前的有一个嗯,实习经验嘛,就是做抖音的后端服务对吧?其实这种的更偏向于说一些业务相关的一些开发,比如说像ramp像队列啊,计划部署啊,这些东西还嗯嗯诶,好像是一个比较比较比较混杂的一个项目对吧,就是你有了解过做一些偏向于业务层的开发跟偏向于底层开发他们的呃个上的区别了吗?或者说你有真的是对底层开发有有这种技术的兴趣还还是说有其他考虑面试正式开始问题1你觉得比较有深度的,或者能体现你的能力的一个一个一个项目(我讲的是一个grpc redis myspl项目)问题2我验一下你的项目啊,现在还是写的还是蛮细节的啊,包括这个本地采集含氧氢能池并发轮巡历史,为什么需要redis这个东西呢?追问1:这样的回复,我问一个问题啊,就是你用Mexico它的写入性能,就是你刚才说两个点嘛,一个是为了解有一些原子性的操作,一个是说觉得MySQL的性能更好,对吧?这个两个核心的点嘛那嗯,你在使用的时候,它的切入线怎么样呢?有有测试过吗?追问2:有没有认真思考过为什么 Redis 的写入延迟比 MySQL 低?追问3:AOF和RDB手撕leetcode原题: 子数组的最大和,要求空间复杂度核时间复杂度限时15分钟反问:你觉得我有什么改进点答:面试官大概意思就是把项目要吃透,特别是团队合作的,就算不是你的工作你也得知道为什么是什么,因为每个面试官默认你是非常了解项目的细节的。(注:在面试过程中我说了一个另他反常识的点,延迟50ms被指出来了,虽然可能记错了但是最后圆过来了,在反问过程中面试官也告诉我不能让面试官觉得反常识)下午发二面邀请
激战2025:最近好累啊,所有的事情都赶到一起了,真的觉得一眼望到头的感觉,想找个轻松的工作怎么办牛U们
查看23道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/279ce1f140ab4a64af4ccd2ee9b817f8/feed/main/detail/adfa58c39961481c9e7d9ef2fd4cbcad/discuss/772048471162433536/feed/main/detail/03cc9447a58d4636b43a8ace96a4c890/feed/main/detail/77a3b5c890734311b89efb687852b78a
字节数开面试-抖音
一面(面试官很好!很有耐心!)1.spark中rdd叫弹性分布式数据集,这个弹性的含义2.小文件的危害以及怎么处理3.spark中宽依赖、窄依赖4.stage的划分5.kafka怎么保证数据不重复消费(没回答上,但说了怎么重复消费数据)6.checkpoint机制7.spark的三种join(boardcast join,sort merge join,shuffle hash join)7.四道sql(前两道很简单,第三道次日留存和七日留存,第四道连续登录问题)8.算法题:移动最少区间个数 使得剩余区间无重叠1. 输入:[1,2][2,3][4,6][1,3]2. 输出:13. 解释:移除[1,3]后,剩余区间无重叠(面试后在牛客网看见有人分享这道算法题)一面最后面试官还问我以后的计划,我说打算先实习明年春招边实习边找工作,她居然问我没想留着字节吗(我当然想!)中间有些问题没想起来,耗时1小时40分钟二面(面试官很好!问的都是和数仓相关的,结合我的实习问)1.之前工作都干了什么2.之前实习搭建数仓的结构3.了解事实表吗,了解维度表吗4.怎么和其他人对接的5.你属于风控部门,但主要是构建数仓开发,那有没有和其他数据开发人员交流过6.你只有一段实习吧,那实习前后有什么感悟吗7.为什么要选择数据开发(我说因为之前实习是干数仓的,他说不要因为之前干什么就觉得以后三十年干什么,实习还是丰富点,看看干什么)8.最后反问二面耗时50分钟,感觉面试官对我回答的第七个问题不满意,只是我明年要毕业了,得多来一份垂直的实习建议多复习spark、hive方面的八股文、概念问题,实习生主要负责离线数仓开发
点赞 评论 收藏
分享
/feed/main/detail/a26b8971c9f943918860c405ce355714/feed/main/detail/f04c208d785a45c3b6a85002c7e47b27/feed/main/detail/565ef16c04254bdc9fe2ded1ce57ba27/feed/main/detail/c852c0ea1d8a4b0484e11001f2abee76/feed/main/detail/ad9e48b9354c45f4b55fca6ef70562e0/discuss/769354031515828224/feed/main/detail/ad18897b4070436c91ff143cc63be28d
多点生活 一面 视频会议
友友们第一次接到这种规模还算可以的公司面试,求指点面试官:做一下自我介绍我:面试官您好,我叫XXX,就读与XXXXX(学院本) 软件工程专业数据与软件开发方向 目前是大三,在校期间主要学习了Hadoop Spark 等大数据相关课程面试官:hive用的多吗我:多,我在学校期间主要做的项目就是数据采集 处理分析,其中处理主要就是利用hive面试官:ok,hive的内部表和外部表有什么区别我:内部表和外部表主要是对于表结构和具体文件数据的关系,外部表的一些表操作比如删除操作,不会删除文件数据,仅仅是删除表的元数据。而内部表的操作就会影响到具体数据文件面试官:ok,hive的静态分区和动态分区的区别我:hive的静态分区主要是在建表的时候就手动指定分区,动态分区是根据表中具体的字段进行分区设置,静态分区之后会产生一个分区列在表结构的最后,但不作为表的具体数据字段。面试官:ok,动态分区主要运用到哪些场景 可以是其他数据类型吗我:主要运用到分区像时间这种,每天一份数据放到不同的日期分区里面存储,这个应该是可以,具体我没有用到过复杂数据类型,不太了解这块面试官:好,OK我这边没什么问题了,你还有什么需要问的吗我:咱们公司这个面试流程是怎么样的我会综合比对一下,如果你过了我这关我后续会联系你的我:好的,那具体薪资这些我就等后续详细再聊,我也没什么了结束断开视频会议
点赞 评论 收藏
分享
/feed/main/detail/a4c4bc37d94943ef88333e086fb650d7/feed/main/detail/a7a3106762164069af8ada58ac554d1a/discuss/769235034128592896/feed/main/detail/7ef95b1b80b243af981bfdae94c46931/feed/main/detail/56f0ac162d324b5e8e3f116b1298f954/feed/main/detail/1603ec8e3fab42ea91f77fb78786296b
字节数据开发timeline
6.20一面自我介绍,项目拷打,数据倾斜的发现,以及如何做的,计算过哪些指标,场景题:计算2024-01-01至今商品的点击率,为了计算该指标,dwd层和dws层该如何构建sql题:将连续的时间展开user_id,s_date,e_date,输出user_id  date_time,求三日内留存率与三日留存率耗时40分钟6.23二面,自我介绍,项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,sql:连续登陆领金币问题,直播间峰值做完题又随便聊了聊,耗时40分钟6.26 加面三面,被面试官狠狠拷打,先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,两个小表之间join,产生数据倾斜你有什么好办法,然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。在问spark对比hadoop好在那里,一不小心答到了sparkAQE,在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,并且 combineByKey需要传入几个参数,然后spark 火焰图了解吗?count(distinct user_id) 用spark 怎么写,一道sql题,编程题看我没有刷过力扣直接没出,面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。耗时80分钟oc
查看19道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/cf0c6c3562c8465d9321a9cb1c509c28
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务