大数据开发工程师精选面经合集
1家公司
5篇面经
最新 热门
虾皮26秋招大数据开发二面75min
项目拷打 1.请详细说明你当前所在公司日常进行数据统计时,主要采用哪些方式?这些方式分别适用于什么场景?例如针对实时数据统计、离线批量数据统计等不同需求,会选择不同的工具或方法吗?2.结合你参与过的具体项目,谈谈你是如何分析项目的业务数据结构的?请说明该数据结构包含哪些核心字段、表与表之间的关联关系,以及你是如何基于业务逻辑梳理清楚这些结构的?3.请问你有相关的数据处理或分析类实习经历吗?另外,你是否接触过非底层(如偏向业务应用层、基于现有平台进行数据处理而非搭建底层架构)的项目?如果有,请简要介绍项目背景和你的职责。4.Spark了解吗?5.从代码到输出结果,Spark引擎做了什么sql题目:表1:用户信息表(含id:用户唯一标识date:用户行为日期,is_new:是否为新用户标识,1表示新用户,0表示老用户)表2:红包领取记录表(含id:用户唯一标识,date:领取日期,time:领取时间,money:题目1:请编写SQL语句,计算"未领取红包的用户在未领取次日、未领取后7日的留存情况"(注:需先明确“未领取红包用户"的定义,即在指定时间范围内有行为记录(表1有数据)但表2无对应领取记录的用户,再计算该类用户在未领取红包日期的次日、第7日是否仍有行为记录(表1有数据)的留存率)。题目2:请编写SQL语句,完成以下两个指标的计算:(1)每日DAU(日活跃用户数):指每日有行为记录(表1中当日有数据)的独立用户数;(2)最近1个月内,3天连续登录的用户占比:即最近 30天内,至少有一次连续3天每日均有行为记录(表1中有对应日期数据)的用户数,占该月内总活跃用户数(表1中该月有至少一天数据的用户数)的比例。反问
点赞 评论 收藏
分享
/feed/main/detail/f95685f6c28e46c2b192d054facd0b32/feed/main/detail/fabdf9716f5a491e896d2648621038c8/feed/main/detail/e89937e409724ea6be4d25ec15374e02/feed/main/detail/c522429083104672bd24fa7021a4d930/feed/main/detail/cb2b7052cdb24f3c8bb92356bd6983b4/feed/main/detail/1bc3db7e701141d68e2b5c3dda67a243/feed/main/detail/a256585f3b8d432ab9b0338cef1ad591/feed/main/detail/4a720f77677b4261a46e6b52d512457d/feed/main/detail/36f32d136d33467ebb3649385b17484d/feed/main/detail/a57069752b5c439ca6ad9848512155ab/discuss/813810869749444608
字节三轮面试面筋
以下内容量比较大,不过自己复盘了一下,确实这几轮面试都是自己表现比较好的,问题也都回答了个7788,运气也算是集中到这几轮了岗位是字节data下面的数据平台的大数据XX工程师(防一下定位),拿到意向后努力回忆一下三轮面试的内容,也为我上一个帖子引下流,有知道数据平台情况的朋友可以和我同步一下相关信息。timeline:9.23 一面 (第二天约9.29二面)9.29 二面  (节后第一天约10.14三面)10.14 三面  (第二天约当天hr面)10.15 hr面10.24 意向-----------------------------------------------------------------------------------------------------------------------------一面(1h):开始面时基本没觉得自己最后能拿到意向,所以回答还有思考都比较松弛,和面试官聊了一下ai时代下数据仓库的核心竞争力其实还是分布式架构,高可用以及弹性扩缩容这些大数据时代涌现出来的技术,因为就目前来看数据库支持RAG实现向量检索,虽然有一定竞争力,但没有任何垄断性(甚至最近经常刷推文看到RAG已死什么的,不过就向量索引这个事来说确实没什么技术含量)具体问题:1.实习相关问题(实习做的主要是数据仓库湖仓一体相关的东西,比如读写外部服务器上的大数据格式文件这些东西)2.了解数据湖吗(hudi,iceberg这些)3.非结构化数据或者说多模态的数据用向量化存储,为什么能解决查询问题?4.设计一个向量数据库,需要哪些模块和核心能力?5.机器内存不够的情况下,如何取出几个大文件中出现频率最高的URL(搞底层的面试官真的很喜欢问内存不够,三面的时候问了同样的问题)6.刚才你有说到大根堆,实现一个大致的大根堆(写了堆化完面试官就说可以了,没太刁难)反问:业务和部门人数这些-----------------------------------------------------------------------------------------------------------------------------二面(1h)经典面试官迟到几分钟,三轮面试加上hr面,面试官全都迟到了,说实话有点无语,不过二面时候由于非常紧张所以语速比较快,面试官提醒了一下可以降低一下语速给我松了口气还挺好的。1.实习相关问题(同一面)2.简单描述一下parquet格式,parquet中不同的column配置的行数是一致的吗3.列存的优劣势(三面也问了)4.知道布隆过滤器吗5.实习项目最大的挑战6.使用的C++排查问题工具有哪些?最后问了几个八股:7.死锁和活锁的区别在于8.C++里有守护线程和非守护线程吗?9.了解exactly once语义吗?手撕:使用int数组实现一个记录1~n值是否存在的位图。-----------------------------------------------------------------------------------------------------------------------------三面(1h)问的最多也是压力最大的一面,虽然没有手撕也没有继续问实习项目相关的东西了,但感觉面试官想把我榨干一样疯狂提问领域内知识,而且中间还会一度比较大声的打断我,不耐烦的重复自己的问题和我的回答有什么问题,压力还是比较大的,还好提前准备了一些业内知识,问到的时候能回答个7788,不然不准备可能前几个问题就寄了。1.olap与oltp的区别2.列式存储的优缺点3.向量化执行具体是指什么,SIMD是什么,具体使用SIMD指令时是需要调用函数吗还是怎么使用(不同架构的芯片提供的具体SIMD指令有所不同,可以程序中内联汇编调用SIMD,但是在高级语言层面,可以调用编译器如GCC的内置封装了SIMD指令的函数编译时指定芯片架构即可,或者某些操作系统或者三方库也封装了一些常用的SIMD指令函数,比如memcpy和memchr等会在编译时使用SIMD进行优化)4.数据库中的变长字符串如何编码才方便进行比较和存储?5.你说字符串前记录字符长度,但是如果我想直接访问第100个字符不是要把前100个字符都过一遍,怎么优化?6.使用字符偏移表或者说字符指针也可以,但是这样频繁来回访问会导致较为严重的CPU缓存失效(比如说先访问一个偏移的指针,然后遍历一大段字符串后,再访问下一个偏移的指针,此时就会发生缓存失效),如何解决?7.实习时有没有遇到一些任务执行时内存不够的情况,不够的话数据库是怎么处理的?8.把上个问题简单一些,比如说现在要对一个比较大的数据进行排序,数据不够放到内存里怎么排?(经典内存不够,说的底层一些就是外部排序,说的系统一些就是map reduce,都可以,看自己对那个更熟悉)9.给你一个单机redis,如何构建一个分布式redis集群(不是问redis集群怎么拉起来,是怎么构建一个分布式架构),我这里说了现在主流数据仓库的mpp架构,虽然对redis可能不是最优的,但是应该面试官也比较了解这个架构,也能说的比redis集群构造的东西多一点(但其实自己也不知道redis集群具体怎么做的,只知道mpp)10.你的实际存储数据的从节点是只能故障时使用吗,还是平常能读写?也是最后问了几个八股:10.C++的构造函数和析构函数能不能设置为析构函数?11.解释一下什么叫协程(因为学过一些go,所以就用go的gmp模型解释了一下相关理解,这个应该挺加分,因为go的gmp确实是各个语言中协程里做的最好的)12.知道什么是连接池吗(面试官这里好像有什么急事,没问的很清楚,所以就没回答的很好)反问:1.业务以及该岗位目前与ai的结合2.这场面试自己哪点做的不够好,面试官说我很多东西最后说的都是对的,但是说之前没组织好语言,讲的不够清楚,需要再提升一下交流能力,想清楚再说。这个确实是我的通病,很害怕面试官等一会就觉得我不会就不给回答机会了,所以一有想法就开始流式吐字,导致逻辑不够清晰,大家也可以注意一下,面试官给的建议就是先说个大概,然后说自己需要措辞一下,一般都会等,说清楚说对最重要,不是说的快(但该说不说,可能有的面试官一直看你半天不回答不会不会觉得你在等ai回复)。-----------------------------------------------------------------------------------------------------------------------------hr面(20min)面试官感冒了,说话一直吸溜鼻子,所以说问了几个问题就结束了,估计hr也知道决定权不在这一面上,所以没有很多刁难问题,感觉比较重点的问题就这个几个:1.之前看你面过一轮数据库的岗位,你有复盘为什么上一轮没通过吗(说实话我一点都不知道为啥挂我,问了几个冷门的linux知识没回答上来,然后手撕个反转链表后一周给我挂了,但是我回复还是结合着岗位匹配度不同和面试官关心得具体知识不同做了回答,简单来说就是这个岗位更适合我,之前那个没那么匹配,之前的面试官关心得点也和我自身得核心能力不太符合,大概这样)2.如何协作,遇到过什么困难,遇到压力如何应对(全是万金油问题,我就万金油回答,挑一些绝对不会出错得打法就好)3.手边offer反问:部门氛围,ai相关,啥时候出结果这些
查看28道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/6da3db1408d84303afd92a5016a5f3ac/feed/main/detail/77e3a032f12b4ff9b283548429fd28df/feed/main/detail/0a305421fef94ecd8827fd5e31bca6f8/feed/main/detail/5a9e5d85e8bc4563b9de09ac6cd1b956/feed/main/detail/8ab13b4de7af4b08b45622d561a2b82d/feed/main/detail/61b357702a0f41a78f60c38406cd2c47/feed/main/detail/b3dcae1c3ef94cb9940cc4a6295ffe07
同花顺数据分析面经
讲述一次你在团队数据分析项目中担任的角色和贡献,对在同花顺团队协作有何启示 ?假设要分析同花顺用户流失原因的数据,你会从哪些角度进行全面且深入的研究 ?如何运用数据分析来评估同花顺市场营销活动的效果,提出优化策略 ?请说明你对数据质量管理流程的认识,若负责同花顺数据质量提升会采取哪些行动 ?举例说明你如何通过数据分析优化业务流程,对同花顺内部流程优化有何想法?若要对同花顺不同产品线的数据进行整合分析,你会采取怎样的技术手段和分析思路 ?谈谈你对机器学习在金融数据分析中的应用理解,如何在同花顺发挥其价值 ?如何在保证数据分析准确性的前提下,提高在同花顺工作中的数据分析效率 ?请分享你处理高维数据的经验和方法,在同花顺面对此类数据会如何操作 ?岙不入校述一个你运用数据分析解决实际业务问题时遇到的挑战及解决办法,对同花顺工作有何参考?对于同花顺用户反馈数据,你会怎样进行分类、整理和分析以助力产品改进 ?如何利用数据分析为同花顺的客户服务部门提供支持,提升服务质量 ?请描述你对大数据框架(如Hadoop、Spark等)的掌握程度,在同花顺如何应用?举例说明你如何通过数据分析评估业务风险,对同花顺金融业务风要险防控有何思路 ?
查看14道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/ceacaf7eb2734b9dad5a1ade7eb2c7e3/discuss/810451980316377088
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务