数据分析师精选面经合集
51家公司
174篇面经
最新 热门
/discuss/610514766993309696/discuss/610496191612137472
数仓-SQL面试题-实录
投票
点赞 评论 收藏
转发
/feed/main/detail/e57a5d8de6d047a48e91b2aec8a0c0e4/discuss/610437316401770496/discuss/610270078868668416/feed/main/detail/4356c144354f4df3986d9eebcf0baede/discuss/610204001446998016
头像
04-17 21:20
已编辑
未填写教育信息
美团数据开发面经总结:美团效率,完全没准备好就面试了。问了很多八股,兼具深度广度,知道的不知道全问了。学习之路道阻且长啊。数仓分层:为什么不能直接建DWD,DIM层,ODS层的必要性是什么?DWS层的作用是什么,为什么不能直接建ADS层?完全同上乱答SQL考查:统计每个科目各等级的人数,写的很艰辛,面试的时候脑子经常短路,干着急。菜就多练分组topN,窗口函数。left join where中的条件写在where里和写在on里面有什么区别,查询结果一样吗?Java考查:HashMap底层组成,怎么减少扩容次数,答扩大初始容量,增加扩容因子。说说面向对象。了解的数据类型。Hive:什么情况会导致倾斜,怎么解决。写了一个HQL语句,问从提交到MR的整个详细执行过程,答的很粗略。hive 怎么根据表名去找表数据,metastore。MySQL 常见内存引擎,什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树,而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则,100个文件前面99个小文件,最后一个文件150M,默认切几片。顺势问到小文件的危害,怎么解决。分区器问题,疯狂拷打,但没什么印象了环形缓冲区调大调小有什么问题,纯乱答。写个快排,没注意有重复元素,好像陷入死循环了。问了为什么选择走数据开发这条路,有看过什么大数据类型的书吗。最后问你的亮点是什么,一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。
点赞 评论 收藏
转发
/feed/main/detail/87c5386b3bfa43aeabfd3cbced257e03
头像
04-17 11:36
Python
美团软件开发工程师-数据开发二面
点赞 评论 收藏
转发
/feed/main/detail/61232612970f4572ad24b3bc92580f50/discuss/609865260975017984
社招-数据仓库面试
Gaussdb是什么数据库Gaussdb和Doris有什么区别数据湖和数据仓库有什么区别hudi中你们用的哪种表类型hudi怎么实现实时数据更新的HIVE有哪些模块知道HIVE的thrift吗,有什么好处生产中是用哪种方式连接HIVE的,会用jdbc连接吗知道哪些spark的运行模式yarn-client和yarn-cluster的区别是什么,从中选一个运行模式具体介绍下select a,sum(b) where c>0 group by a。spark中是怎么实现的,你觉得这个语句什么情况下会出现数据倾斜,怎么优化它spark中小文件你怎么处理的我想将数据只写入到10个文件里面,怎么处理,distribute by cast(rand()*10 as bigint)怎么将a字段的值一样的数据写入到同一个文件,并最后只生成5个文件 distribute by mod(a,5)Spark中的Job、stage、task是什么关系spark的Job可以并行执行吗,stage可以并行执行吗,什么情况下stage可以并行执行,举个stage并行执行的例子Flink怎么处理积压的Flink的Exect-Once怎么实现的java的内存空间分哪些怎么让栈空间溢出,怎么让元空间溢出工作中会遇到内存溢出的问题吗内存溢出了你会怎么去分析知道哪些序列化方式,Serializable和protobufprotobuf与Serializable序列化的区别了解数据库连接池吗,是什么原理了解线程池吗,介绍下你知道的SpringBoot相对于Spring MVC的优点Spring中的注解了解哪些数据库的事务知道吗事务的隔离级别有哪些,默认是那种隔离级别你觉得你们公司目前有哪些方面可以改进的,比如工作上的改进、平台上的改进你工作中遇到了哪些难题,怎么解决的作为你的同事,你觉得你能带来什么好处你最近有去学习什么新东西吗,从中学到了什么为什么想来我司所在城市你未来的职业规划是什么#社招面经#
点赞 评论 收藏
转发
/feed/main/detail/131aa7df5275486caaef96d73fb1ce88/feed/main/detail/15d2ca19211d4eb5bef80d150790a2eb/discuss/609705911371698176
头像
04-16 11:12
Python
腾讯软件工程-数开实习三面
昨天面了腾讯软件工程-数开实习的三面,下面记录一下问题:1.自我介绍,有无实习经历(无),做的两个项目是自己练手的?(是)2.描述了一个场景,有一张员工表,有姓名、年龄、性别,求出所有姓张、年龄小于20的所有女性。口头作答3.刚才你说的这个sql怎么优化?(添加索引、联合索引)4.添加索引有什么副作用?(会占用空间)5.假设表的内容越来越多,比如上千万行,怎么优化表?(分区、缓存)6.怎么缓存到内存?(用redis这种内存数据库)7.内存数据库和非内存数据库的读写差异?(内存数据库读写可以在微妙完成,非内存数据库的读取速度取决于磁盘I/O性能和数据量大小)8.为什么非内存数据库就比较慢(因为存储介质比较慢)9.什么硬盘比较快?(固态硬盘)10.固态硬盘和机械硬盘读写差异有多大(由于固态硬盘使用闪存存储数据,它们具有非常快的读取速度,机械硬盘使用旋转的磁盘和读写头来存储和访问数据,比较慢)11.毫秒级别是什么场景?(操作系统的数据加载、固态硬盘的读写)12.SSD的缺点是什么?(价格贵,容易老化,数据丢失)13.为什么SSD会随着使用时间的增加而性能下降?(写入操作会导致存储单元的磨损,温度也会使性能下降)14.假设表很大,行怎么拆分?(可以考虑用时间分区)15.除了日期,还有什么可以水平拆?(地理位置、实体属性、业务流程)16.年龄性别怎么分?(年龄按年龄段分,性别按男女分)17.怎么评价划分好坏?(属性的区分度要好,分区后的数据尽量要均衡)18.有什么好的分法?19.如果从中国所有人里面搜索,怎么样可以快一点?(按省市区县分区)20.按地域划分的缺点?(分区后数据可能不均衡,比如深圳是千万级城市)21.python跟c++和java的区别是什么?22.linux查看系统资源,cpu怎么看?23.top看到的ioswap是什么原因?24.怎么解决io等待?25.磁盘上部署大量的 I/O 密集型任务,怎么均衡?26.公平调度是什么?27.有什么不公平的方法?28.爬泰山有10000级台阶,每一次只能走1,2,3步,怎么做?(用动态规划)29.这个动态规划的优点和缺点?30.这个动态规划代码的缺点怎么优化?31.自顶向下的记忆化搜索,怎么避免重复计算?32.最擅长的技术今天看到3面过啦!希望hr面顺利
点赞 评论 收藏
转发
/feed/main/detail/1b1ea5ea3b974c84860980f3c19b214e/feed/main/detail/f8ecac2ded9444168b63362d6855a2ad/discuss/609490072651485184/feed/main/detail/08e1f965181e4da9adb64d8f6fa9cc36/discuss/609460934750294016/discuss/609416534775046144/feed/main/detail/18c364dac3ac4a0cacf4bee9b8793acd
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

牛客网
牛客企业服务