北京 快手 大数据研发技术面经

昨天面的, 下午2点到6点多, 全程见了2位HR和4位研发, 其中2位研发是比较高级的leader. 目前等HR回复中
自己之前在小公司做了2年大数据, 人手少, 哪里需要哪里搬, 所以这次被考察的面也有点广
题目做了一下简单记录, 会有遗漏, 并且没有按顺序哈. 个人觉得大概回答下来80%多吧

[Java]
1. HashMap的底层数据结构, 为什么JDK8要用红黑树. ConcurrentHashMap的底层数据结构, 如何保证线程安全
2. synchronized关键字的本质, 作用是什么. volatile关键字的作用, 哪些情况下会用它
3. Java线程的几大状态及转换. 线程可重入是什么概念, 可重入锁呢
4. 如果要设计一个线程池, 需要考虑哪些要素. Executors工厂类能创建哪些线程池, 用过哪些
5. 讲一讲熟悉的设计模式. 单例模式及工厂模式的实现方法. 装饰器模式是怎么一回事
6. 讲一讲熟悉的JVM GC算法, 常用的垃圾收集器. CMS有什么优缺点
7. 一个Java应用上线后, 关注哪些性能指标. 如果响应时间过长或者CPU占用过高, 如何排查, 用哪些工具或命令

[大数据组件]
1. 是否自己搭建的集群, 集群节点数及配置
2. Hadoop的XML配置文件有哪些, 改过哪些参数, 分别代表什么含义
3. HDFS NameNode高可用如何实现, 需要哪些角色. YARN有哪些组件, 如何分配资源
4. Spark RDD有哪些特点, 宽依赖和窄依赖. RDD的缓存级别
5. DAGScheduler及stage如何划分. 给一个比较复杂的RDD lineage, 手动划分stage和task
6. Spark Streaming以一定的时间窗口统计PV/UV, 如果窗口内数据量暴涨, 如何保证稳定性. 如果会延迟上报, 如何保证实时性
7. Kafka与Spark Streaming集成, 如何保证exactly once语义
8. Spark/Hive中大表join小表的优化方法. 数据倾斜和shuffle调优方法
9. 调整过Hive的哪些参数, 用什么执行引擎. Hive UDF怎么写, 写过哪些. HiveQL是怎样解析成MR/Spark job的
10. HBase的数据在HDFS上是怎样存储的, 写入数据的流程是怎样的. 为什么HBase适合写多读少业务
11. HBase的一个region由哪些东西组成. RegionServer宕机之后如何感知, 如何迁移数据
12. 为什么选用Kudu作为HBase和Hive的折中方案, 它有什么特点. 如果不用Kudu, HBase的二级索引能解决问题吗
13. Impala的查询及执行与Hive有什么不同 [PS. 我之前的项目里用了Kudu+Impala]

[数据仓库设计]
1. 之前业务中的数据仓库是如何分层的, 怎样建模, 主题如何划分
2. 从ODS到DW层的ETL, 做了哪些工作
3. 1~3NF的含义. 维度建模中星型模型和雪花模型的不同. ***键是什么, 支架表是什么
4. 如何处理缓慢变化维. 怎样建设拉链表, 如何在拉链表中恢复最新数据

[算法和应用题]
1. 最长公共子序列(LCS)问题. 动态规划
2. 找出二叉树中任意两个节点的最低公共根节点, 如果树是BST呢. 深度优先搜索+二分查找树性质
3. 10亿条64B长的URL, 限定1G内存, 做计数, 如果要TopN的话呢. 哈希分桶+堆排序时间复杂度
4. 用户行为日志有UID和时间戳, 设定一个session间隔. 离线及在线地计算用户的平均session长度
5. 之前做过标签推荐系统, 详细讲一下架构和自己设计的算法. 算法流程是行为评分+指数衰减+线性归一化+余弦相似度/皮尔逊相关性+TF-IDF打压

#快手##面经##大数据开发工程师##社招#
全部评论
马住,学习了,谢谢楼主。
1 回复 分享
发布于 2020-09-22 22:51
感觉现在校招就问这些东西,不过多谢分享
点赞 回复 分享
发布于 2018-12-21 01:35
好全面啊
1 回复 分享
发布于 2018-12-20 12:39
会考算法题嘛~
点赞 回复 分享
发布于 2022-07-12 13:21
楼主北邮毕业的?
点赞 回复 分享
发布于 2021-10-27 03:28
最后收到offer了吗
点赞 回复 分享
发布于 2020-10-14 22:52
大腿
点赞 回复 分享
发布于 2020-09-22 06:55
大腿
点赞 回复 分享
发布于 2018-12-21 11:24
大腿
点赞 回复 分享
发布于 2018-12-21 01:43
社招问的也是一些基础题么?比校招的基础更加深入
点赞 回复 分享
发布于 2018-12-20 11:27

相关推荐

05-08 08:07
已编辑
杭州电子科技大学 Java
一面-30分钟实习实习难点技术1. new一个hashmap(6)。它的空间实际多大?如果加对象了是多少?HashMap 会将初始容量调整为大于等于指定容量的最小的 2 的幂。并发场景使用Map2. cas。底层原理3. synchronized4. 集合对象唯一,使用什么?hashset打印有序吗?set如何有序? linkedHashSet5. 索引如何建立?联合索引?联合索引的顺序与索引不一致,查询顺序在哪里优化?6. MVCC7. readview?可见性算法8. 聚集索引、二级索引9. 一般用redis做什么10. redis持久化11. rdb会阻塞主进程吗?快照会记录当前更新的数据吗?12. rdb持久化的时机13. redis主从、哨兵、集群二面-50分钟实习1. 分片上传如何设计的2. 断点续传。如何保证上传过程中分片没有被篡改3. 如何理解注解。为什么要使用?一般会在哪里使用?4. AOP拦截注解,本质通过什么方式?反射5. 如何理解反射?自己使用过吗(aop切面中通过反射获取注解的信息,从而获取到value值)6. Threadlocal怎么使用的技术1. 什么是弱引用?其他引用?为什么有这么多引用?如何应用的?2. 做过线上处理吗3. 如何找到Java进程的id?linux命令,有没有什么工具4. 什么命令可以分析cpu性能?top默认用什么排序?可以使用内存排序吗5. 实习机器配置?6. 假如一个应用,线程数量很多,导致系统运行不稳定,告警,现在有很多系统工具。现在让你去分析,为什么这个应用占用线程,目的是降低它的线程数量,你会怎么做?如何推动这个事情去落地7. 实习最大的收获8. 假如开发阶段,产品提了需求变更,你会怎么做9. rpc、dubbo有用过吗?如何理解?10. redis幂等怎么做的?有哪些问题?如果消息隔一天发送,如果是一周呢?如果不考虑redis库存呢?从技术设计考虑redis幂等有什么问题?11. redis日志12. 近期有写业务代码吗?算法:java代码实现三个线程交替打印1-10二面面试官是个巨佬,非常非常强。介绍很长时间部门业务,日活几百万,以为自己当时能过算法题没写出来,当时还没怎么练习手撕,现在看来很可惜,如果写出来了是不是就过了
点赞 评论 收藏
分享
1假设一个队列需要删除其中一个节点,应该怎么去操作它?2那你是调用这个链表它本身提供的接口吗?那它该接口的底层大概是怎么实现的?3二分查找法,如果要计算时间复杂度,应该怎么去计算?4了解快排的时间复杂度应该怎么计算?5它的这个计算的复杂度,是稳定性的吗。6假如说有一连串的计算表达式1+ 2 * (3 + 5)/ (6 + 3)。这样的计算表达式,要计算它的数学结果,这个我应该怎么去做?7要把10进制转成 16 进制,是一个什么样的思路啊?8假设三维空间中有很多个点,假如说有 10 万个点,需要求距离最近两个点的坐标,我应该怎么去做?9地铁站的这些站点信息,打算怎么去存? Java 里面用什么样的数据结构去存这个这条线路?还有这个站点?假如以地铁站为例,有 2 号线、 1 号线,然后 1 号线有什么站点? 2 号线有什么站点?10面试官提示了用链表存储。继续问:那当你存了之后,怎么去做深度优先遍历啊?11假如说功能上线之后,我的用户访问量比较大,有 20 万用户同时去访问。那这时候我的查询、计算就会比较慢,我应该怎么去做相应的优化?●来不及改程序,直接加硬件资源●加缓存,直接带来性能优化●算法层面的优化12多个进程之间的通信方式会包括有哪些?13Redis 能简单说一下读写的流程吗?14假设redis集群三主三从,那节点是怎么去做选择的?怎么知道当前这个 key 是发到 a 节点还是这个 k 发到 b 节点,是一个什么样的策略?15实习的话是希望对自己有一个什么样的期望或者目的?
面试问题记录
点赞 评论 收藏
分享
从上一个帖子之后面了大概七八次大厂公司,基本都做了总结,现在发一下面经,但是基本都一面挂......搞不懂问题也答了,手撕也过了为什么全都一面挂。。。疑似KPI面,无手撕,聊项目,聊八股1.自我介绍2.你认为前端和交互相关的技术有哪些?3.event loop4.promise5.你的研发过程中有没有使用过一些技术,通过event loop实现的技术6.宏任务、微任务这种情况在实际开发中你认为有哪些应用场景7.手写一个Promise.then的话,是怎么具体实现的8.手写这个Promise的话是怎么去实现这个同步任务、异步任务、宏任务、微任务的这个执行顺序的9.Promise会创建宏任务吗,Promise的宏任务是在什么时间点创建的?10.聊聊页面鉴权11.Token放在请求头的哪一个具体位置12.Token存储在LocalStorage里面会不会有安全问题?别人使用越权登陆怎么办?13.大部分的网站的登录信息,你认为是存在localStorage里还是存在Cookie里面14.你们现在为什么做项目都喜欢把Token存在LocalStorage里面,是有什么开源项目或者是看到什么推荐这样存储的吗15.防抖和节流具体做了一个什么事情16.如果我做了两次请求,第一次因为服务器卡顿返回的特别慢,第二次请求很快返回,结果第一次请求覆盖了第二次请求,该怎么办?17.介绍一下虚拟滚动18.你如果是按需渲染的,那么你的列表总高度理论上是不知道的,你怎么去知道这个列表的总高度是多少?19.虚拟滚动的时候如果滚动比较快,可能会出现白屏,实时渲染可能会出现抖动,有什么方案可以去解决?20.最近大模型比较火,你对AI或大模型有什么理解呢?你会使用大模型在具体实际生活中去做些什么21.你是怎么学习的?22.你看过哪些开源项目呢反问:1.面试流程2.公司base 杭州3.项目业务基本都答上来了,两个不是很确定的问题也一口气说了一大堆,面试官全程笑呵呵,但是有反馈,不抱希望,感觉会凉。
点赞 评论 收藏
分享
评论
24
340
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务