数据分析师精选面经合集
4家公司
6篇面经
最新 热门
/discuss/818875295569563648/feed/main/detail/7426c64219a04af4a2cce84f36335103/feed/main/detail/c1f20feb1f584dcfb55f2f11c032db92
阿里云大数据数仓面经
1.对 Hadoop 各组件之间通信所使用的 RPC协议的具体内容2.Hadoop 中读数据的完整流程(包括客户端发起请求、与 NameNode 交互、与 DataNode交互等各环节)3.在数据传输过程中,若 DataNode 突然挂掉,Hadoop 系统会如何处理(包括任务重试、数据副本恢复等机制)4.HBase 源码的核心模块、关键类及底层实现窪捞轶货嶍瑛冶辑(如数据存储、读写流程等相关源码细节)5.在 HBase 中构建二级索引时,通过何种方式或机制保证索引数据与原始数据的一致性(如事务控制、同步更新策略等6.JVM 的具体架构(包括程序计数器、方法区虚拟机栈、本地方法栈、堆等组成部分);堆内存的划分的原理及适用场景;以及平时实际工作中是否会调整GC算法调整的依据是什么7.JVM 参数中,-Xms(初始堆大小)和-Xmx(最大堆大小)仅设置其中一个,与同时设置两个且值相同的情况下,对 JVM 运行产生的具体区别8.如何通过命令或工具查看当前 Java 进程中内存各代(新生代的 Eden 区、Survivor区,老年代等)的内存占比情况9.用于查看 Java 进程中线程堆栈信息的具体命令(如 jstack 等)及使用方法10.如何查看 Java 进程中某个对象的具体大小包括对象本身及引用的对象所占用的内存),可使用的命令或工具及操作步骤11.排查堆内存泄露的方法,除了将堆内存Dump 出来用MAT(Memory AnalyzerTO01)分析之外,还有哪些更简单直接的排查方式
查看11道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/1542671607cc45f68d51b3d5a5089863
京东数据仓库校招面经
1.列举几种数据倾斜的情况,并解释为什么会倾場咏,以及如何解决?2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.idWHERE a.dt='2016-01-01'AND b.dt='2016-01-01';3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq9.Storm 的分组策略有哪些?
点赞 评论 收藏
分享
/feed/main/detail/a6bf0074186549b2aecd311cee659db4
宇信科技大数据一面
一面时间10.29面试了50min,但面试过程中网络经常出问题1、自我介绍2、你觉得大数据专业和计算机科学等专业有啥差异?3、你觉得哪门你的印象比较深刻、对你的影响比较大?4、你觉得大数据和传统数据库的主要区别在哪?5、你觉得事务是什么意思?举个例子6、你觉得整个事务是单纯数据库就可以完成的吗?7、事务能够解决怎样的问题?为啥需要事务——》什么情况下会出现幻读、脏读——》为什么大家不能一个一个读呢?——》并发8、大数据中有并发这种东西吗——》(有时候解决一个问题是靠技术解决,有时是靠一个规范,有的是使用模式)——》数仓怎么解决这个问题?——》(面试官)从技术层面上来讲早期HDFS是有这个问题的,并行写是有问题的,但这个问题是可以忍受的,一是因为不太用的到并发,实际数仓建设中一个表里在一定时间基本只有一个东西在往里写(delete,insert),二是因为出了点问题是可以接受的,早期谷歌大数据搜索,现在记录日志,很少有数仓一边写一边读9、大数据在分布式上的作用是啥,从存储、计算的层面来讲哪些比较有特点——》你觉得100台1G的服务器比较贵还是1台100G的服务器比较贵——》(面试官)100台服务器一直都是比较贵,电力、散热等,但不怎么容易坏——》Yarn解决的啥问题——》啥是计算资源——》讲讲Spark的计算这块介绍一下10、场景:你到现场,没有任何数据平台,给一份文件(数据量极大,以京东白条这种为例),第一列是时间,第二列是用户人名,第三列是消费金额,我现在要做个排序,找出单日消费前10的人,服务器上性能较一般,但啥语言工具都有,你会怎么解决?——》你觉得并行和并发有什么区别——》(面试官)一个大数据任务本质上处理方法是一样的,无非节点多就并行做,节点少就串行做,节点不多不少就整体并行,每个并行里是串行。11、聊聊你的离线数仓——》为什么企业要建数仓?——》数仓分层的依据——》ODS的中文是啥(回答错了)——》如果ODS和数仓只能留一个,你准备留哪个?(回答错,实际是保留ODS)——》你既然回答的理直气壮,那你觉得ODS为什么还留着,为什么没被干掉?(面试官跳过了)12、你觉得数仓几个层要被干掉一个,你觉得哪个层要被合并——》DWS(?)13、你对维度建模理论有了解吗?——》你觉得维度建模理论提出是为了解决啥问题,为什么要搞维度表,事实表,为什么不搞个宽表,2、300个字段堆那?——》你觉得实际工作中宽表用的多不多——》(面试官原话)所以你觉得维度建模理论是扯淡吗(笑)——》你觉得谁喜欢宽表?——》(面试官)政府部门的人相当喜欢宽表,实际工作环境中,不查数据,一般都是要求下载为excel,他只关心本部门的数据,那个数据没有那么多,他也不会写SQL,就要求你整到一起下载到excel让他去操作。(面试官)为什么这些理论和实际差别很大呢——》早期数仓很贵ODS最大的价值——》万一领导马上就要数据,数仓来不及跑,可以直接从ODS拿,像泄洪闸一样的方便的东西,另外一般参与ODS建设的人的资历比较老,ODS可以减小,但不能被干掉。面试官建议:你的逻辑能力、学习能力都不错,再找个方向去积累,数仓有些没那么牛,但可以做很久。
第一次找实习,我建议__
点赞 评论 收藏
分享
/feed/main/detail/9c039de56312432aa8f48b97dffd1534/discuss/818515020311965696
26校招字节数仓一面
查看21道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/9d9375b12bcd4177b5ca34d1b587aced/feed/main/detail/4be3e36e0e4b43e1ab07026b273522a9/discuss/818513940194816000/feed/main/detail/1d4a36beba8b4f359bcc6c89076096cf/feed/main/detail/60847d0b432e465185862a70dc72b6f2/feed/main/detail/b7d8d6c341174f55ab9d7167bcd8a194
腾讯校招大数据开发面经
1.WordCount 具体是怎么跑的?比如怎么分片、map 阶段做了啥、shuffle 是咋回事、reduce 最后怎么汇总的2.MapReduce和Spark 到底差在哪儿?适用场景这些都得对比着说3.Spark 提交任务时,Client模式和集群模式有啥不一样?比如 Driver 在哪跑、日志在陖瞎圈看、适合啥场景4.同一条 SQL,为啥 SparkSQL 跑起来比HiveSQL 快?得从执行引擎、优化器这些底层说说原因5.自定义 UDF 怎么实现?比如在 Hive 或Spark 里,具体步骤是啥,有没有踩过坑6.设计 HBase 表得注意啥?rowkey 怎么设计才合理、列族要不要分、版本数怎么设,这些睪腘狐旨を曽斷纰可能问到7.HBase 里的 HLog 是干嘛的?跟数据持久化、故障恢复有关系吗8.都是存在 HDFS 上的数据,为啥 HBase 能支持在线实时查询,Hive 就不行?底层存储结构不一样在哪9.用 SparkSQL 操作 Hive 数据时,有没有縈区堠浓ゴ壮攥到过兼容性问题?比如某些函数不支持、数据格式读不对之类的,怎么解决的10.Spark Streaming、Storm、Flink 这几个流处理框架,区别在哪?各自的优缺点和适用场景得搞明白场景题:11.数据量特别大,要用三个 Map 和一个Reduce 来做 Top10,哪种方法效率最高?得考虑怎么减少数据传输、避免倾斜
查看11道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/dd1c6e11675c4b22b912f21751b55ba6/feed/main/detail/4e05cf40fcad4231a88da15314c44eed/feed/main/detail/de035ab97f694d07acd990dcdff752a4/feed/main/detail/4e1d36abfe9045ad97eecd02dbf7bacd/feed/main/detail/ea5b43b65b5a4ec38c752a290f7e0844/discuss/817792875797757952
虾皮26秋招大数据开发二面75min
项目拷打 1.请详细说明你当前所在公司日常进行数据统计时,主要采用哪些方式?这些方式分别适用于什么场景?例如针对实时数据统计、离线批量数据统计等不同需求,会选择不同的工具或方法吗?2.结合你参与过的具体项目,谈谈你是如何分析项目的业务数据结构的?请说明该数据结构包含哪些核心字段、表与表之间的关联关系,以及你是如何基于业务逻辑梳理清楚这些结构的?3.请问你有相关的数据处理或分析类实习经历吗?另外,你是否接触过非底层(如偏向业务应用层、基于现有平台进行数据处理而非搭建底层架构)的项目?如果有,请简要介绍项目背景和你的职责。4.Spark了解吗?5.从代码到输出结果,Spark引擎做了什么sql题目:表1:用户信息表(含id:用户唯一标识date:用户行为日期,is_new:是否为新用户标识,1表示新用户,0表示老用户)表2:红包领取记录表(含id:用户唯一标识,date:领取日期,time:领取时间,money:题目1:请编写SQL语句,计算"未领取红包的用户在未领取次日、未领取后7日的留存情况"(注:需先明确“未领取红包用户"的定义,即在指定时间范围内有行为记录(表1有数据)但表2无对应领取记录的用户,再计算该类用户在未领取红包日期的次日、第7日是否仍有行为记录(表1有数据)的留存率)。题目2:请编写SQL语句,完成以下两个指标的计算:(1)每日DAU(日活跃用户数):指每日有行为记录(表1中当日有数据)的独立用户数;(2)最近1个月内,3天连续登录的用户占比:即最近 30天内,至少有一次连续3天每日均有行为记录(表1中有对应日期数据)的用户数,占该月内总活跃用户数(表1中该月有至少一天数据的用户数)的比例。反问
点赞 评论 收藏
分享
/feed/main/detail/f95685f6c28e46c2b192d054facd0b32
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务