2025暑期实习-大数据开发面经-字节跳动-data-电商

一面 50分钟

  1. 自我介绍
  2. 你学过的大数据掌握的最好的是哪一个
  3. hive里面排序一般怎么使用的
  4. hive内部表和外部表的区别,外部表在什么场景下使用
  5. hive视图用过吗
  6. 你对维度和事实的理解
  7. 你说到了业务过程,谈谈对它的理解
  8. 你刚刚描述的是一个业务过程还是 多个业务过程
  9. 多个业务过程放到一张事实表的你举个例子
  10. 维度建模中 星型模型和雪花模型 之间的区别
  11. 缓慢变化维表如何处理呢
  12. 全量表的数据保存多久
  13. 那你们订单表是全量还是增量,你觉得增量是什么意思,那你们这边的数据保存多久呢
  14. 说一下订单表的设计过程 以及 表的分区含义
  15. 你前面提到了会进行维度退化,那么说一下订单表中有哪些维度退化属性
  16. 那你说一下你们数仓的一个全链路吧
  17. 我看你项目还写了一个实时的,你这个在哪看的
  18. 那说一下flink乱序事件处理的几种方式吧
  19. 抖音有一张流量表和一张交易表,分别是 table_a(mid, pv) 和 table_b(mid, gmv),如何将他们进行合并,数据倾斜如何处理
  20. 你想做什么方向

二面 35分钟

  1. 自我介绍
  2. 讲一下你的项目吧
  3. 挑一个你做的需求讲一下,你遇到的难点是什么
  4. 你知道维度建模的过程吗
  5. 你平时用什么语言多一点,回答java,然后问了一个string stringBuilder stringBuffer的区别
  6. HDFS写的流程,要是有一个datanode挂了怎么办
  7. kafka是如何保证数据不丢失和数据不重复,然后又说消费的时候呢
  8. spark的shuffle的过程
  9. 你可以对shuffle进行优化吗
  10. SQL题:table_a(date, uid, vid) 找出3月19号看不同视频数排名前五的uid 【最好不用distinct】

三面 leader 45分钟

  1. 自我介绍
  2. 一直在聊数仓项目 (建模基础,以及业务理解)
  3. 刷了一道算法题,主要就是 1-a 2-b ... 26-z,那么给你一个数值的字符串,问有多少中编码的方案,比如“12”,返回2(最后我没写出来,但是给出了动态规划的想法)

hr面 15分钟

  1. 自我介绍
  2. 你遇到过最大的问题是什么
  3. 你什么时候能来实习,实习多久(建议回答:立马入职,一直实习)

~~~还有一些常规的问题不记得了~~~

整体总结

  • 一面基本全是业务,二面就是项目八股文都有一点,三面基本就是项目
  • 数仓的面试还是比较偏向业务的和偏向数仓建模理论的,可能手撕算法比较少
#数据人的面试交流地##暑期实习##面试复盘#
大数据开发面试笔记 文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

相关推荐

05-28 19:08
已编辑
门头沟学院 Java
突然收到面试邀请,而且没有hr电话直接就甩了个晚上的面试链接。自我感觉答得不好,估计是挂了,但面试官人很好,氛围相对轻松。public、protected、default、private​重写和重载区别JVM内存模型​类加载过程,字节码加载过程​OOM​AOP​讲讲RPC​算法题:二分查找+测试用例​TCP/IP四层模型​,那一层是IP、那一层是端口​TCP和UDP区别​三次握手及为什么三不能是两次GET和POST区别​Linux 的命令​,查看CPU情况介绍一下做过的项目​电商退款有哪些测试用例​死锁是什么及其原因​慢查询原因及如何定位慢查询​什么字段适合建立索引?innoDB跟myISAM...
一笑而过2222:1. Linux查看CPU情况:使用 top 可实时查看系统CPU整体及各进程占用率,按 1 能展示每个核心运行状态; htop 以可视化界面增强交互性; mpstat -P ALL 精准统计每个CPU核心负载; lscpu 输出CPU架构、缓存等硬件信息; vmstat 综合展示CPU、内存、IO等资源使用趋势; sar -u 基于历史数据统计CPU负载; nproc 直接获取CPU核心数量。实际分析时,先用 top 快速定位异常,再结合 mpstat 等深入排查。 2. 电商退款测试用例:功能测试覆盖全额/部分退款、不同发货状态处理、退款金额计算及多渠道返还;异常测试包含重复退款、越权操作、网络中断恢复;业务规则聚焦退款时效控制、优惠券分摊逻辑、高频退款风控;同时补充兼容性(多终端适配)和性能测试(高并发场景响应),保障退款流程稳定可靠。 3. 死锁及其原因:死锁是多进程/线程因资源竞争形成互相等待、无法推进的阻塞状态,需同时满足互斥(资源独占)、请求保持(占有资源时请求其他资源)、不可剥夺(资源不能被强制释放)、循环等待(形成资源等待环路)四个条件。常见于数据库事务交叉锁定、多线程无序获取锁等场景,可通过资源预分配、顺序加锁预防,依赖日志或线程Dump分析检测。 4. 慢查询原因及定位:慢查询根源在于索引失效(未命中或设计不当)、数据量过大导致全表扫描、复杂查询(嵌套子查询、大量JOIN)、锁冲突(行锁升级表锁)、服务器资源瓶颈(CPU/IO过载)。定位时,先启用慢查询日志并用 pt-query-digest 分析高频慢SQL,再通过 EXPLAIN 剖析执行计划,结合 SHOW ENGINE INNODB STATUS 排查锁等待,必要时借助 Performance Schema 监控资源消耗。 5. 适合建索引的字段:优先对高频出现在 WHERE 、 JOIN 、 ORDER BY 子句中的字段建索引,尤其是高选择性字段(如身份证号、手机号);组合索引遵循最左前缀原则;写入频繁字段谨慎建索引,避免影响性能;大字段类型可使用前缀索引优化查询。 6. InnoDB与MyISAM区别:InnoDB支持事务、外键和行级锁,采用聚簇索引存储数据,适合高并发读写场景,具备崩溃恢复能力;MyISAM使用表级锁,无事务支持,索引与数据分离存储, COUNT(*) 统计高效,但不适用于写密集业务。生产中InnoDB用于核心交易模块,MyISAM适用于只读统计类表。 7. InnoDB锁及表锁升级:InnoDB提供共享锁、排他锁、间隙锁等多种锁机制,并通过MVCC减少冲突。表锁升级常发生于SQL无法命中索引引发全表扫描、大事务更新大量数据导致自适应哈希索引失效、执行 ALTER TABLE 等DDL操作,以及死锁检测后强制升级场景。优化需确保索引覆盖查询,拆分大事务降低锁粒度。
查看20道真题和解析
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
06-05 04:14
已编辑
真烦好烦真烦:看着感觉好强啊,这都过不了吗
投递字节跳动等公司7个岗位 面试中的破防瞬间
点赞 评论 收藏
分享
评论
3
18
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务