中科院信工所 数开一面 凉经

本人是26届数开选手 找的日常实习 
中科院信工所的数据开发主要业务是做安全相关的 底层是大数据技术。
11/26 一面,问题如下
1. 自我介绍
2. 实习时长,实验室研究方向,如果进来的话会考虑转正吗
3. 了解过liunx吗?如果我们要查看各个运行的进程具体情况用哪些指令,查看显卡运行情况用什么指令
4. 熟悉哪些语言?java常见集合有哪些
5. 如果我们往hashmap中插入一个元素,说说这个过程底层是怎么实现的
6. 项目数据来源,说说用什么方式采集的
7. 简单说说kafka架构是怎么样的,那它里面数据是有序的吗?怎么解决kafka中数据重复问题
8. HDFS小文件过多有什么影响,应该怎么解决?
9. 了解过spark吗?spark相关算子有哪些?groupbykey和reducebykey有什么区别 具体说说
10. 了解过flink吗
反问环节

总结:无手撕,面试官反应 基础知识不是很牢固 项目使用的组件不太清楚 被认为数仓搭建没有自己从0-1动手做(实际自己跟着视频一步步敲了 不过确实答的不好)因为项目是离线数仓 所以被问到spark和flink直摇头,面试的老师还是挺好的,继续学习吧#日常实习面试##数据开发##寒假实习#
全部评论
我的天,怎么跟我面试的好多题一样,我还被要求写快速排序
1 回复 分享
发布于 2024-12-06 22:49 北京
可以问一下是怎么具体问项目的组件的吗,我看你的面经主要说的是八股文,因为我是没有一步步跟着搭建数仓的,所以特别害怕问数仓具体组件,想要多看看这部分面经,谢谢博主~
点赞 回复 分享
发布于 2024-12-06 10:37 四川

相关推荐

1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
评论
6
10
分享

创作者周榜

更多
牛客网
牛客企业服务