字节跳动数据仓库实习面经

如题,坐标中兴大厦旁边的985
后来问了一下,面的应该是懂车帝
1. 首先问了一下项目,我是有一个hadoop的项目,问了项目的整体方案
2. 问了一下hdfs的基础,数据存入hdfs的过程,我答的namenode找到datanode
3. 三个sql的题,答的一般
  • 第一题:2个字段,考试时间,是否通过。要求给出每个时间的通过数和失败数,大概就是一个group by
  • 第二题:进行数据拆分
    1 1,2,3
    2 4,5,6
    拆成
    1 1
    1 2
    1 3
    2 4
    2 5
    2 6
    这个完全不会,面试官说是窗口函数,要马上看一下了
  • 第三题主要考的是inner join,left jion,right join,full join。给出两个表,求第一个表中和第二个表相同的用户的uid,以及第一个表和第二个相同用户的比例。主要记得去重
4. 然后应该是问了一下业务方向的问题,构建用户画像这类的,如何从多维度进行数据分析,用户行为分析

大概就是这些了,总用时一个小时,应该是凉凉😌
#实习##字节跳动##数据仓库工程师#
全部评论
同学同花顺尝试一下吗,面试简单不造火箭,可保姆式全程跟进度,我帖子有内推
点赞 回复 分享
发布于 2022-09-25 16:39 浙江
为啥数据仓库还问数据分析的问题😂
点赞 回复 分享
发布于 2020-12-14 20:57

相关推荐

04-14 17:26
门头沟学院 Java
📍面试公司:柏楚电子(上海)40分钟👜面试岗位:java(不是软开)📖面试问题:两个面试官AB1.自我介绍2.A你那个系统是全栈是吧3.A先问一些基础相关的    数据结构:两个栈实现一个队列 (答了)    计算机:进程与线程  介绍  区别  (答了)    计网:http和https  端口号  (答了)            七层模型介绍  http和https   sql在哪一层  (答了)A让B问项目4.B有一棵树怎么求高度   思路,算法  (树不熟,说了暴力的方法)5.B线程创建方式  (答了)    B介绍线程池  (答了)    B提交到线程池流程  (答了)    B用过哪几种线程池  (主要用的注解+线程池配置)    B什么情况@Async注解失效  (没碰到过)6.B介绍IOC和AOP思想  (答了)    Baop实现数据过滤切片放在哪里  (答了,可能有点问题)    Baop实现双删思路  (答了)    B双删的是啥 (答了)    A听你说用redis对数据进行缓存,怎么判断哪些数据是热数据  (答了)    A什么时候刷新缓存  (答了)7.B你这个项目一都是你做的是吧,登录什么都是你做的是吧    大致流程是什么样的  (答了)    Btoken在那部分给的  (答了)    Bhttp协议中在哪写部分  (没注意,记不得具体的部分)    Btoken是怎么传过来的  (答了)    B每次请求拿过来每次怎么处理  (答了)    Btoken是否永久有效  (答了)      B框架解析出用户信息之后在Controller里是要重新解析吗  (用了框架的,不是很清楚) 8.B整个项目事务是怎么处理的  (答了) 9.B若依主要用来做什么了  (答了)10.B要部署项目思路是什么样的  (答了)11.B事务传播机制  (答了)    BMysql事务默认隔离级别  (答了)    A事务失效的情况   (答了)12.A介绍实习项目    (答了)     A某模块重构相关  (说我不算重构,只能说是改动)     A项目业务  (答了)13.A毕设项目是开源项目还是自己从0到1写的  (答了)14.Agit用过吧  解决提交冲突  (答了)15.ARabbitMQ怎么在项目中使用的  (答了)16.AES在哪用过  (学习过项目中没用)17.AMinIO存了哪些数据  (头像)18.B回到问题15业务,确保资源不会被重复使用,怎么加的分布式锁  具体在哪里上锁  (答了,沟通过程中意识到原来的做法可能有问题,说了改进办法)    B分布式锁是怎么实现的  (答了)反问   秒挂🙌面试体验:两个人面的,感觉面试官毫无准备,草台班子,刚开始A问的还好,后来越问越没有逻辑顺序,两个人想到哪里问哪里,上来拉个基础随便问,一会问基础一会说说项目,看不到作为面试官的专业性,多数问题都答出来了,有的我认为原来有问题的地方也当场想了新思路,面评竟然是深度不够,我感觉问的广度倒是挺广的,也没见啥深度的问题(要成黑子了)
点赞 评论 收藏
分享
04-08 22:11
门头沟学院 Java
美团一面1.点评 介绍下项目,架构,表的设计2.项目是怎么部署的?服务端和客户端是一个单体服务?3.表结构都有哪些?4.使用了redis缓存,redis缓存有哪些使用场景?5.基于Redis保存用户登录token并设计双重拦截器以实现会话保持功能是怎么实现的?6.会话有多少请求量?多少QPS?有哪些redis优化方式去支持大量的会话请求?(100wQPS)除了集群部署还有其他方式吗?基于默认的配置,数据结构,缓存清理?7.Redis服务挂了,会话会不会收到什么影响?应急方案去减少这种影响?主从复制是一种容灾方式,持久化的策略,备份,负载均衡?8.AOF跟RDB相对来说各自的优点和缺点?其他角度,性能,操作的方便性?RDB数据量比较大,生成快照有什么风险?9.超卖怎么实现?乐观锁是怎么实现的?没有用到版本号?锁的用户?10.分布式锁实现一人一单怎么实现的?你锁的是什么?人的维度还是券的维度?11.实现上面这两种方式遇到什么困难?想听解决问题的思路?12.那你了解Redission的实现吗?比原生有哪些优势?13.第二个项目比第一项目亮点在哪?14.消息队列应用在哪些场景?15.RocktMQ有哪些优势?特点?问的是RocktMQ这里面的基础知识?16.高并发使用消息队列会有哪些问题?-》消息积压17.消息积压从其他角度?消费者角度优化逻辑,异步逻辑,增加资源分配18.线程池用在哪里地方?19.线程池使用的逻辑?20.怎么去设置?你的线程池的设计方案?21.线程池核心数可不可以设为0?22.为什么CPU核心数要设置核心数+1,+2?IO密集型要设置核心数*2?23.你提到无界队列,他在使用会有什么问题?24.你有没有JVM参数调优的经验?25.JVM常见垃圾回收算法?26.说说ZGC?27.你的项目用的哪个垃圾收集器?你用的JDK哪个版本?第二次面试被拷打烂了,面试官很好一直引导着说
查看27道真题和解析
点赞 评论 收藏
分享
时间线:🔴0328投递🔴0407收到测评 当天完成测评🔴0408收到面试邀请邮件 有0409两个时间段的选择以及时间不合适三个选项🔴0409一面面试流程:面试官先自我介绍,然后call流程:一共三十分钟,开始的五分钟由面试者自我介绍,最后的两分钟由面试者反问面试官,中间的二十几分钟由面试者介绍自己的项目经历,面试官在这时随时打断深挖。Q1:我先做了自我介绍,211本在读大三,面试官问后续发展如何规划(包含本科就业规划以及就业城市意向)。Q2:我有两段数分实习,面试官让自由选择一段实习中的一个项目展开介绍,并且提出要求希望是特别一点的项目,最好不要选择普通的异动分析等展开来讲。Q3:介绍项目背景前面试官打断问我所在的部门的职责。Q4:介绍到拆解指标的阶段,面试官打断询问拆解出这么多指标的结论是什么。Q5:根据Q4的回答我提到了一个方面,xx垂类目前数据表现较好,可以作为业绩增长点。面试官再提问为什么给出这样的答复,用户群体没有增长和变化的情况下出现这种现象背后的原因是什么。Q6:下拆到一个分为五层的维度,面试官提问这个维度是怎样分层的,以及各层标签所占比例。Q7:回到分析结论部分,面试官提问除了提到的xx垂类还有没有其他垂类表现比较好。Q8:提到产品迭代,同一页面中A板块扩大导致B资源被侵占,B数据下滑,面试官提问我怎样看待这件事情,怎样看待两个部门之间的关系。Q9:面试官提问我认为我现在做的产品的竞品是什么。Q10:面试官提问我在这段实习中做得好的方面和做得不好的方面有哪些。反问环节我一共问了三个问题:Q1:基于我在本场面试中的表现,您认为我有哪些方面可以提升。Q2:您认为对于数据分析师来说最重要的是什么。Q3:您认为对于能够通过这场转正实习面试的同学应该达到什么标准。  
查看13道真题和解析
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
04-15 23:47
已编辑
无手撕  面试官迟到三分钟(这应该不算迟到)以为会问八股,结果全是项目引申的,麻了 有的面试官不问我这玩具项目呜呜+在日常实习就没看,自己介绍都没讲清楚1. 线程通信方式  oom  线程安全 死锁2. 分布式事务 如果c超时没反应, 咋处理。直接通知回滚的话,可能有c先处理回滚的命令,后面又执行了本地事务(c查看本地事务的状态 执行中就不回滚 还是咋处理)3. 协调者挂了 咋办  项目: 库存变化流程 redis回滚库存为啥会超卖 mq重投db会不会超卖 (幂等判断和回滚在一个事务中)4. 分库和分表的区别(分库一般是多个实例解决高并发,分表是单表数据量比较大  分库和分表很像,都是按分片键路由)基于买家id分表分库的话,卖家想查询怎么办(binlog 卖家id分片)自己说话要坚定,不能弱弱怂怂的 晚上一看,挂了感觉是除了分布式事务那两问题基本都能回答个大概,可能"大概"这种程度不行吧,太久没看了,自己的项目都不熟了,分布式事务确实就学了一点   看见我的项目都想吐,重复看的东西。。呜呜呜呜,好菜,本科学历不太行感觉银行国企也不太稳麻了3. 我搜的是1.TCC  2.本地消息表  3.多节点选举机制(如Raft协议)实现高可用,避免单点故障     三阶段提交只是缓解了单点故障问题      (TCC和本地消息表根本就没有协调者所以没有单点故障   没有往这上面想 一直在绕三阶段提交)2. #### 1. 参与者C超时无响应**解决方案:**- **事务状态查询机制**:协调者先发起事务状态查询(3PC中的CanCommit阶段)- **异步补偿机制**:记录操作日志,超时后通过定时任务重试事务查询- **最终一致性兜底**:若长时间无响应,记录异常事务日志人工介入- **示例流程**:  1. 协调者发送prepare请求  2. 参与者C超时未响应  3. 协调者发起事务状态查询请求  4. 若C本地事务已提交 -> 继续提交其他参与者  5. 若C未提交/回滚 -> 发起全局回滚(我前面讲的RMQ的事务消息 也是反查本地事务状态 这没回答出来)4. ### 二、分库分表核心区别|          | 分库                          | 分表                  ||----------|-----------------------------|---------------------|| 拆分维度  | 数据库实例级别                   | 单表结构级别           || 核心目标  | 降低单点压力,提升并发处理能力        | 解决单表数据量过大问题   || 典型场景  | 电商系统买家库、订单库分离           | 用户表按月分表          || 实施难度  | 需要处理分布式事务、跨库join        | 主要处理SQL路由        |
点赞 评论 收藏
分享
评论
4
34
分享

创作者周榜

更多
牛客网
牛客企业服务