字节集团信息数据开发一面0922

70分钟

1.自我介绍

2.业务复盘和收获

3.spark的reduce阶段

4.核心表和拓展表的建设

5.模型的健康度

6.数据治理

7.应用层直接引用ods层会有什么问题?怎么解决?

8.对于spark的参数调优

9.对于数据倾斜,spark自身的优化有哪些

10.提到的AQE会对占比70%这种的极端数据倾斜做哪些处理

11.这个过程叫什么join

20分钟手撕

会话日志表(未按时间戳排序),两个字段:user_id,create_ts(时间戳),时间戳间隔小于30秒的为有效会话,超过30秒会认为是无效会话,如果是单个记录会认为是1秒的会话。请输出表,记录有效会话信息,user_id,keep_ts(会话时长),start_ts(开始时间),end_ts(结束时间)。

例子:

user_id,create_ts

1,1000

1,1010

1,1003

1,1070

2,1000

2,1005

输出:

user_id,keep_ts(会话时长),start_ts(开始时间),end_ts(结束时间)。

1,10,1000,1010

1,1,1070,1070

2,5,1000,1005

全部评论
请问是base哪里的
点赞 回复 分享
发布于 09-22 16:27 江苏

相关推荐

09-22 12:51
武汉大学 Java
预计的是45分钟,最后被拷打了75分钟,算法题没有页面,让我本地操作1. 介绍什么是IOC(控制反转)?2. 介绍什么是AOP(面向切面编程)?3. 运行时如何判定一个对象的类型?具体怎么用?4. 能否通过反射拿到class上所有的方法(包括私有方法)?静态变量可以获得吗?5. 反射能获取私有方法时,作用域范围是什么?能否调用私有方法?6. 反射中setAccessible的意义是什么?7. 私有方法可被反射获取,是否会导致私有属性/方法的安全问题?这种情况合理吗?8. MySQL索引的实现原理有哪些?9. 用过explain吗?介绍其返回结果中主要字段的意义。10. explain结果中的filter字段代表什么?11. 基于“主键为xxxid,查询未删除(软删,有deleted_at字段)的数量,explain显示扫描10条,filter命中50%”的场景,说明SQL执行时做了哪些事情?12. 从binlog层面介绍上述SQL执行过程中的相关操作。13. 介绍缓存穿透的解决方案及相关经验。14. 比较Spring和Spring Boot的区别。15. 标准Web项目(如基于Spring MVC的HTTP服务)中,Spring Boot提供了哪些模块来实现相关能力?其集成能力如何?16. 如何在Spring中连接MySQL?具体连接过程(初始化时机、初始化方式)是怎样的?17. 为什么需要Mybatis这类ORM框架?它相比“裸写SQL”有什么优势?18. 项目中如何模拟超卖?模拟的QPS量级和库存设置是多少?19. 介绍“一锁二判三更新”的实现方式及逻辑。20. 若Redis在执行过程中掉电或集群网络短暂中断,如何恢复数据?如何保证数据一致性?是否存在不一致的时机?21. 数据校对过程的时效、实现方案是什么?22. 如何用Java实现一个简易消息队列?(要求:支持单个topic、单写多消费、最多100条消息,需处理写入速率超过消费速率的问题,暂不考虑持久化)23. 为何将“丢弃最老消息”作为消息队列满时的拒绝策略?该策略适合什么场景?哪些应用的MQ会侧重时效性?24. MQ适合的场景有哪些?在容量有限的场景下,延迟消息和削峰填谷场景分别适合什么拒绝策略?25. 了解HTTP请求从发起至服务器的完整链路吗?26. 用空间复杂度O(1)的方案实现IP地址按点反转(如192.0.1.2反转为2.1.0.192),写出代码并讲解思路。27. 面试收尾环节,询问候选人是否有问题。
查看27道真题和解析
点赞 评论 收藏
分享
评论
1
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务