大数据开发工程师精选面经合集
3家公司
6篇面经
最新 热门
/feed/main/detail/4b03c7fcb03849c79d52c194e92df2df/discuss/772048471162433536/feed/main/detail/c852c0ea1d8a4b0484e11001f2abee76
多点生活 一面 视频会议
友友们第一次接到这种规模还算可以的公司面试,求指点面试官:做一下自我介绍我:面试官您好,我叫XXX,就读与XXXXX(学院本) 软件工程专业数据与软件开发方向 目前是大三,在校期间主要学习了Hadoop Spark 等大数据相关课程面试官:hive用的多吗我:多,我在学校期间主要做的项目就是数据采集 处理分析,其中处理主要就是利用hive面试官:ok,hive的内部表和外部表有什么区别我:内部表和外部表主要是对于表结构和具体文件数据的关系,外部表的一些表操作比如删除操作,不会删除文件数据,仅仅是删除表的元数据。而内部表的操作就会影响到具体数据文件面试官:ok,hive的静态分区和动态分区的区别我:hive的静态分区主要是在建表的时候就手动指定分区,动态分区是根据表中具体的字段进行分区设置,静态分区之后会产生一个分区列在表结构的最后,但不作为表的具体数据字段。面试官:ok,动态分区主要运用到哪些场景 可以是其他数据类型吗我:主要运用到分区像时间这种,每天一份数据放到不同的日期分区里面存储,这个应该是可以,具体我没有用到过复杂数据类型,不太了解这块面试官:好,OK我这边没什么问题了,你还有什么需要问的吗我:咱们公司这个面试流程是怎么样的我会综合比对一下,如果你过了我这关我后续会联系你的我:好的,那具体薪资这些我就等后续详细再聊,我也没什么了结束断开视频会议
点赞 评论 收藏
分享
/feed/main/detail/a4c4bc37d94943ef88333e086fb650d7/feed/main/detail/56f0ac162d324b5e8e3f116b1298f954/feed/main/detail/1603ec8e3fab42ea91f77fb78786296b/discuss/765269975861903360/feed/main/detail/c23d72663f7f4ec58bd4dfb2f540b809/feed/main/detail/848953aa8c7a451abcf510908b106c43/feed/main/detail/29d4847238cf420aabfdfe8020c5c975/feed/main/detail/f6f8afa4ab14458ca3620ecad6a6e56d/discuss/758979062436995072/feed/main/detail/5acad939cc094d679db02c4a94e42332/discuss/758001505621336064/feed/main/detail/88b92f0fbd334432b64c7f5ec8ef1a38/feed/main/detail/830243b5fc5b400983d0660d7634bfad/discuss/755450770861883392/feed/main/detail/fe77ef5d818944dca3806acabdc5430e/feed/main/detail/9f0fa7047d574c0da7bf1cec23d175fb
京东数据开发一面
状态最差一次面试,整个人在漫长春招一个多月后开始说话语无伦次+脑袋不转。0. 面试官自我介绍,问实习时间1. 自我介绍,简单讲项目2. neo4j底层怎么存储:基于磁盘的二进制文件存储3. 故障怎么办:故障检测、宕机恢复4. 访问量增加怎么办:水平扩展、读写分离、索引缓存(redis5. redis怎么数据一致性:单线程保证了、主从同步、持久化机制6. py的dict怎么安全多线程?加锁7. py线程池 threadlocal:忘了8. 分布式负载均衡的算法:rr、wrr、随机、加权随机、最少连接9. CAP:一致性可用性和分区容忍不可兼得,一般舍弃C或者A10. 项目和hdfs的区别:算法上,结构微调11. 知道其他大数据组件吗:没咋看12. 分布式系统总结 共通的特点解决问题和架构:解决一致性可用性分区容忍、负载均衡容错。。架构是分namenode和后面存储node13. 解决数据一致性的方法:2PC预提交 + 正式提交、投票、最终一致性14. 场景:py 生产者消费者 时间戳数据 怎么实现15. Queue有界的话怎么办?丢异常16. 报错怎么解决:重传、调速度17. queue锁怎么设计:互斥锁、又说了乐观锁桶锁好像跑题了。。应该有条件变量?18. 加整个queue还是怎么加?生产者生产的时候消费者没办法消费:只锁关键小段代码19. 假设分布式系统十亿数据挑选最大top10:每个服务器选top10然后归并。选的算法可以hashset、可以bitmap、可以堆排,考虑到内存。20. spark用py写的?对。。21. 卡夫卡用过:恩22. 反问感觉又要凉了,自己面的方向太多做的东西又杂.. 路漫漫其修远兮😌
查看22道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/4fa48eec8078456c89b92a7a2663fa1e
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务