数据分析师精选面经合集
4家公司
6篇面经
最新 热门
/feed/main/detail/5b0b41edd6364a758ed7f2548a550229/feed/main/detail/057c958607cb4d2ba04a192839b24b9b/discuss/820460075801128960/discuss/820412855202623488/feed/main/detail/cc5234be9ca74a11ad165ce83655467c/feed/main/detail/7d42755bff0c443eb074e1df2f368e28/feed/main/detail/773e18b5fdc3413a8d1f18fa37546fa7/feed/main/detail/1a5922db93884d6ebd6005997dd2bb8f/discuss/818875295569563648/feed/main/detail/7426c64219a04af4a2cce84f36335103/feed/main/detail/c1f20feb1f584dcfb55f2f11c032db92
阿里云大数据数仓面经
1.对 Hadoop 各组件之间通信所使用的 RPC协议的具体内容2.Hadoop 中读数据的完整流程(包括客户端发起请求、与 NameNode 交互、与 DataNode交互等各环节)3.在数据传输过程中,若 DataNode 突然挂掉,Hadoop 系统会如何处理(包括任务重试、数据副本恢复等机制)4.HBase 源码的核心模块、关键类及底层实现窪捞轶货嶍瑛冶辑(如数据存储、读写流程等相关源码细节)5.在 HBase 中构建二级索引时,通过何种方式或机制保证索引数据与原始数据的一致性(如事务控制、同步更新策略等6.JVM 的具体架构(包括程序计数器、方法区虚拟机栈、本地方法栈、堆等组成部分);堆内存的划分的原理及适用场景;以及平时实际工作中是否会调整GC算法调整的依据是什么7.JVM 参数中,-Xms(初始堆大小)和-Xmx(最大堆大小)仅设置其中一个,与同时设置两个且值相同的情况下,对 JVM 运行产生的具体区别8.如何通过命令或工具查看当前 Java 进程中内存各代(新生代的 Eden 区、Survivor区,老年代等)的内存占比情况9.用于查看 Java 进程中线程堆栈信息的具体命令(如 jstack 等)及使用方法10.如何查看 Java 进程中某个对象的具体大小包括对象本身及引用的对象所占用的内存),可使用的命令或工具及操作步骤11.排查堆内存泄露的方法,除了将堆内存Dump 出来用MAT(Memory AnalyzerTO01)分析之外,还有哪些更简单直接的排查方式
查看11道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/1542671607cc45f68d51b3d5a5089863
京东数据仓库校招面经
1.列举几种数据倾斜的情况,并解释为什么会倾場咏,以及如何解决?2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.idWHERE a.dt='2016-01-01'AND b.dt='2016-01-01';3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq9.Storm 的分组策略有哪些?
点赞 评论 收藏
分享
/feed/main/detail/a6bf0074186549b2aecd311cee659db4
宇信科技大数据一面
一面时间10.29面试了50min,但面试过程中网络经常出问题1、自我介绍2、你觉得大数据专业和计算机科学等专业有啥差异?3、你觉得哪门你的印象比较深刻、对你的影响比较大?4、你觉得大数据和传统数据库的主要区别在哪?5、你觉得事务是什么意思?举个例子6、你觉得整个事务是单纯数据库就可以完成的吗?7、事务能够解决怎样的问题?为啥需要事务——》什么情况下会出现幻读、脏读——》为什么大家不能一个一个读呢?——》并发8、大数据中有并发这种东西吗——》(有时候解决一个问题是靠技术解决,有时是靠一个规范,有的是使用模式)——》数仓怎么解决这个问题?——》(面试官)从技术层面上来讲早期HDFS是有这个问题的,并行写是有问题的,但这个问题是可以忍受的,一是因为不太用的到并发,实际数仓建设中一个表里在一定时间基本只有一个东西在往里写(delete,insert),二是因为出了点问题是可以接受的,早期谷歌大数据搜索,现在记录日志,很少有数仓一边写一边读9、大数据在分布式上的作用是啥,从存储、计算的层面来讲哪些比较有特点——》你觉得100台1G的服务器比较贵还是1台100G的服务器比较贵——》(面试官)100台服务器一直都是比较贵,电力、散热等,但不怎么容易坏——》Yarn解决的啥问题——》啥是计算资源——》讲讲Spark的计算这块介绍一下10、场景:你到现场,没有任何数据平台,给一份文件(数据量极大,以京东白条这种为例),第一列是时间,第二列是用户人名,第三列是消费金额,我现在要做个排序,找出单日消费前10的人,服务器上性能较一般,但啥语言工具都有,你会怎么解决?——》你觉得并行和并发有什么区别——》(面试官)一个大数据任务本质上处理方法是一样的,无非节点多就并行做,节点少就串行做,节点不多不少就整体并行,每个并行里是串行。11、聊聊你的离线数仓——》为什么企业要建数仓?——》数仓分层的依据——》ODS的中文是啥(回答错了)——》如果ODS和数仓只能留一个,你准备留哪个?(回答错,实际是保留ODS)——》你既然回答的理直气壮,那你觉得ODS为什么还留着,为什么没被干掉?(面试官跳过了)12、你觉得数仓几个层要被干掉一个,你觉得哪个层要被合并——》DWS(?)13、你对维度建模理论有了解吗?——》你觉得维度建模理论提出是为了解决啥问题,为什么要搞维度表,事实表,为什么不搞个宽表,2、300个字段堆那?——》你觉得实际工作中宽表用的多不多——》(面试官原话)所以你觉得维度建模理论是扯淡吗(笑)——》你觉得谁喜欢宽表?——》(面试官)政府部门的人相当喜欢宽表,实际工作环境中,不查数据,一般都是要求下载为excel,他只关心本部门的数据,那个数据没有那么多,他也不会写SQL,就要求你整到一起下载到excel让他去操作。(面试官)为什么这些理论和实际差别很大呢——》早期数仓很贵ODS最大的价值——》万一领导马上就要数据,数仓来不及跑,可以直接从ODS拿,像泄洪闸一样的方便的东西,另外一般参与ODS建设的人的资历比较老,ODS可以减小,但不能被干掉。面试官建议:你的逻辑能力、学习能力都不错,再找个方向去积累,数仓有些没那么牛,但可以做很久。
第一次找实习,我建议__
点赞 评论 收藏
分享
/feed/main/detail/9c039de56312432aa8f48b97dffd1534/discuss/818515020311965696
26校招字节数仓一面
查看21道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/9d9375b12bcd4177b5ca34d1b587aced/feed/main/detail/4be3e36e0e4b43e1ab07026b273522a9/discuss/818513940194816000/feed/main/detail/1d4a36beba8b4f359bcc6c89076096cf/feed/main/detail/60847d0b432e465185862a70dc72b6f2
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务