快手 数据研发实习

一面
数据同步怎么做的
事实表、维度表怎么设计
数据完整性、唯一性怎么保证
数据怎么分区,如果增量同步,需要历史数据合并分区慢怎么解决
数仓如何进行组件选型,理由
数仓建设过程中有哪些难点
atlas如何获取数据血缘
拉链表怎么设计
你觉得拉链表常用吗,为什么不用
那你为什么要设计拉链表
sql题 分组topn
row_number rank dense_rank区别
看两个sql,差异在哪,哪个好,为什么
高耗时任务优化思路
尽可能优化后数据还是倾斜怎么办
mapreduce原理
mapreduce几次排序,为什么要排序
#面经##快手#
太菜了,估计又凉了
全部评论
可以问问哪里的原因挂了吗,星期五要面快手
1 回复 分享
发布于 2024-08-14 16:32 广东
蚂蚁集团校招HC,考虑考虑嘛?新鲜出炉HC,赶个晚集
点赞 回复 分享
发布于 2024-06-06 12:48 浙江
历史分区和增量数据合并慢怎么解决?这个该怎么回答
点赞 回复 分享
发布于 2024-04-10 06:43 河北
你好,面试的sql是有自己平台吗,可以写hivesql什么的,还是只能mysql呀😁
点赞 回复 分享
发布于 2024-03-24 10:57 山西

相关推荐

不愿透露姓名的神秘牛友
11-13 15:31
查看10道真题和解析
点赞 评论 收藏
分享
1.WordCount 具体是怎么跑的?比如怎么分片、map 阶段做了啥、shuffle 是咋回事、reduce 最后怎么汇总的2.MapReduce和Spark 到底差在哪儿?适用场景这些都得对比着说3.Spark 提交任务时,Client模式和集群模式有啥不一样?比如 Driver 在哪跑、日志在陖瞎圈看、适合啥场景4.同一条 SQL,为啥 SparkSQL 跑起来比HiveSQL 快?得从执行引擎、优化器这些底层说说原因5.自定义 UDF 怎么实现?比如在 Hive 或Spark 里,具体步骤是啥,有没有踩过坑6.设计 HBase 表得注意啥?rowkey 怎么设计才合理、列族要不要分、版本数怎么设,这些睪腘狐旨を曽斷纰可能问到7.HBase 里的 HLog 是干嘛的?跟数据持久化、故障恢复有关系吗8.都是存在 HDFS 上的数据,为啥 HBase 能支持在线实时查询,Hive 就不行?底层存储结构不一样在哪9.用 SparkSQL 操作 Hive 数据时,有没有縈区堠浓ゴ壮攥到过兼容性问题?比如某些函数不支持、数据格式读不对之类的,怎么解决的10.Spark Streaming、Storm、Flink 这几个流处理框架,区别在哪?各自的优缺点和适用场景得搞明白场景题:11.数据量特别大,要用三个 Map 和一个Reduce 来做 Top10,哪种方法效率最高?得考虑怎么减少数据传输、避免倾斜
查看11道真题和解析
点赞 评论 收藏
分享
评论
7
62
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务