货拉拉 数据仓库实习生

由于已经离职了,就发一下面经把

一面

  • 自我介绍
  • 项目
  • 数仓怎么分层
  • 数据倾斜怎么处理
  • join优化
  • 实时数仓和离线数仓的定位
  • 能实习多久
  • 反问
  • 数据量多少进去干什么工作对我的建议
    • 进去主要负责什么

    二面

  • 说一下MR的执行流程
  • 内部表和外部表的区别
  • 其他记不太清了,主要是一些基本的数仓八股文

    #我的实习求职记录##数据人的面试交流地#
    全部评论
    请问大佬在货拉拉实习一般干些什么任务呢?
    点赞 回复
    分享
    发布于 03-08 09:49 广东
    太强了😍
    点赞 回复
    分享
    发布于 03-08 13:05 北京
    联易融
    校招火热招聘中
    官网直投

    相关推荐

    Gaussdb是什么数据库Gaussdb和Doris有什么区别数据湖和数据仓库有什么区别hudi中你们用的哪种表类型hudi怎么实现实时数据更新的HIVE有哪些模块知道HIVE的thrift吗,有什么好处生产中是用哪种方式连接HIVE的,会用jdbc连接吗知道哪些spark的运行模式yarn-client和yarn-cluster的区别是什么,从中选一个运行模式具体介绍下select a,sum(b) where c>0 group by a。spark中是怎么实现的,你觉得这个语句什么情况下会出现数据倾斜,怎么优化它spark中小文件你怎么处理的我想将数据只写入到10个文件里面,怎么处理,distribute by cast(rand()*10 as bigint)怎么将a字段的值一样的数据写入到同一个文件,并最后只生成5个文件 distribute by mod(a,5)Spark中的Job、stage、task是什么关系spark的Job可以并行执行吗,stage可以并行执行吗,什么情况下stage可以并行执行,举个stage并行执行的例子Flink怎么处理积压的Flink的Exect-Once怎么实现的java的内存空间分哪些怎么让栈空间溢出,怎么让元空间溢出工作中会遇到内存溢出的问题吗内存溢出了你会怎么去分析知道哪些序列化方式,Serializable和protobufprotobuf与Serializable序列化的区别了解数据库连接池吗,是什么原理了解线程池吗,介绍下你知道的SpringBoot相对于Spring MVC的优点Spring中的注解了解哪些数据库的事务知道吗事务的隔离级别有哪些,默认是那种隔离级别你觉得你们公司目前有哪些方面可以改进的,比如工作上的改进、平台上的改进你工作中遇到了哪些难题,怎么解决的作为你的同事,你觉得你能带来什么好处你最近有去学习什么新东西吗,从中学到了什么为什么想来我司所在城市你未来的职业规划是什么#社招面经#
    点赞 评论 收藏
    转发
    美团数据开发转正实习面经总结:美团效率,完全没准备好就面试了。问了很多八股,兼具深度广度,知道的不知道全问了。学习之路道阻且长啊。数仓分层:为什么不能直接建DWD,DIM层,ODS层的必要性是什么?DWS层的作用是什么,为什么不能直接建ADS层?完全同上乱答SQL考查:统计每个科目各等级的人数,写的很艰辛,面试的时候脑子经常短路,干着急。菜就多练分组topN,窗口函数。left join where中的条件写在where里和写在on里面有什么区别,查询结果一样吗?Java考查:HashMap底层组成,怎么减少扩容次数,答扩大初始容量,增加扩容因子。说说面向对象。了解的数据类型。Hive:什么情况会导致倾斜,怎么解决。写了一个HQL语句,问从提交到MR的整个详细执行过程,答的很粗略。hive 怎么根据表名去找表数据,metastore。MySQL 常见内存引擎,什么时候适合用哪种引擎。事务隔离级别。银行应该用哪种隔离级别。为什么用B+树,而不是B树或者其他。行列存储优缺点。常见的压缩格式。MR:切片规则,100个文件前面99个小文件,最后一个文件150M,默认切几片。顺势问到小文件的危害,怎么解决。分区器问题,疯狂拷打,但没什么印象了环形缓冲区调大调小有什么问题,纯乱答。写个快排,没注意有重复元素,好像陷入死循环了。问了为什么选择走数据开发这条路,有看过什么大数据类型的书吗。最后问你的亮点是什么,一直都不知道这些问题怎么答然后详细描述。其他的想不起来了。
    点赞 评论 收藏
    转发
    点赞 15 评论
    分享
    牛客网
    牛客企业服务