知乎 数据仓库 凉经

写在前面:这段时间经过了一段高强度笔面,但还是颗粒无收
面试
面试官进来就说:你不会flink?
我:了解的不多
那我们这次可能通过概率不大,但我们仍然可以就大数据来一波交流
实时:
Flink的checkpoint
Flink的反压
Flink的状态后端
离线:
Kafka的有序性(不可全局有序,但可分区有序)面试官说不对??我让他下去再好好看看
Kafka一定不会丢数据嘛?
Spark的内存模型(yarn-client,yarn——cluster)
数据仓库的意义
怎么衡量一个好的数仓(一致,质量,复用,统一口径。。。。)数据治理相关知识
Hive的执行计划看过没?看过,通过stage,定位数据倾斜。
维度建模方法:雪花,星型
拉链表
三个sql:连续登录,互相关注,最大直播间人数(全秒了)
无奈啊,面试官说你这离线这边很扎实,但知乎的数仓只用实时,主要做实时推荐。寄!
全部评论
知乎怎么看挂没挂,官网也看不到流程啊
点赞 回复
分享
发布于 2023-10-19 16:42 四川

相关推荐

Gaussdb是什么数据库Gaussdb和Doris有什么区别数据湖和数据仓库有什么区别hudi中你们用的哪种表类型hudi怎么实现实时数据更新的HIVE有哪些模块知道HIVE的thrift吗,有什么好处生产中是用哪种方式连接HIVE的,会用jdbc连接吗知道哪些spark的运行模式yarn-client和yarn-cluster的区别是什么,从中选一个运行模式具体介绍下select a,sum(b) where c>0 group by a。spark中是怎么实现的,你觉得这个语句什么情况下会出现数据倾斜,怎么优化它spark中小文件你怎么处理的我想将数据只写入到10个文件里面,怎么处理,distribute by cast(rand()*10 as bigint)怎么将a字段的值一样的数据写入到同一个文件,并最后只生成5个文件 distribute by mod(a,5)Spark中的Job、stage、task是什么关系spark的Job可以并行执行吗,stage可以并行执行吗,什么情况下stage可以并行执行,举个stage并行执行的例子Flink怎么处理积压的Flink的Exect-Once怎么实现的java的内存空间分哪些怎么让栈空间溢出,怎么让元空间溢出工作中会遇到内存溢出的问题吗内存溢出了你会怎么去分析知道哪些序列化方式,Serializable和protobufprotobuf与Serializable序列化的区别了解数据库连接池吗,是什么原理了解线程池吗,介绍下你知道的SpringBoot相对于Spring MVC的优点Spring中的注解了解哪些数据库的事务知道吗事务的隔离级别有哪些,默认是那种隔离级别你觉得你们公司目前有哪些方面可以改进的,比如工作上的改进、平台上的改进你工作中遇到了哪些难题,怎么解决的作为你的同事,你觉得你能带来什么好处你最近有去学习什么新东西吗,从中学到了什么为什么想来我司所在城市你未来的职业规划是什么#社招面经#
点赞 评论 收藏
转发
6 22 评论
分享
牛客网
牛客企业服务