携程数仓实习(一二面凉经)

3.20 一面

没有自我介绍

先介绍自己的项目,然后对项目提问(问得很少)

给一个你不熟悉的业务,要求做一些报表、指标,你会怎么做(如何设计数据仓库,数仓建模)

Hive有哪些存储文件格式,对应的应用场景(这块没答好)

给一个txt文件,load数据到Hive中需要考虑哪些问题(这里回答的也烂)

给A、B两张表进行join,描述join的过程

用MapReduce详细的描述join的过程

给定一张订单表请考虑它的一个表结构(分区表?不分区),存储数据使用增量表?全量表?为什么?

基于订单表继续丰富场景,问订单表常发生状态的变化,该怎么存储维度变化?

答:拉链表

详细描述一下该如何实现拉链表,面试官人很好,说得不对的会帮我补充,还会帮我梳理思路

sql题:给定一个打卡表(dep_id,uid,time),求连续打卡次数(用户两次打卡中间没有其他人,则认为是连续打卡)

3.25 二面

面试官迟到了几分钟

自我介绍

介绍项目(以数仓的形式介绍的)

项目中存在的难点

针对说的难点继续挖(说得不是很清晰,面试官说没听懂我说的)

对AI、LLM的了解

对脚本语言的了解,比如shell、python

为什么选择数仓开发,结合LLM说一下自己的看法

在业务实现过程中,可能会遇到好沟通的或者不好沟通的人,你有没有遇到过这种情况,如何处理

反问:

部门具体的业务

面试表现(对我说的项目难点不满意,感觉就是那个问题没答好,后面回答的也很烂

全部评论
友友是风控部门吗
点赞 回复 分享
发布于 04-02 22:21 广东

相关推荐

状态最差一次面试,整个人在漫长春招一个多月后开始说话语无伦次+脑袋不转。0. 面试官自我介绍,问实习时间1. 自我介绍,简单讲项目2. neo4j底层怎么存储:基于磁盘的二进制文件存储3. 故障怎么办:故障检测、宕机恢复4. 访问量增加怎么办:水平扩展、读写分离、索引缓存(redis5. redis怎么数据一致性:单线程保证了、主从同步、持久化机制6. py的dict怎么安全多线程?加锁7. py线程池 threadlocal:忘了8. 分布式负载均衡的算法:rr、wrr、随机、加权随机、最少连接9. CAP:一致性可用性和分区容忍不可兼得,一般舍弃C或者A10. 项目和hdfs的区别:算法上,结构微调11. 知道其他大数据组件吗:没咋看12. 分布式系统总结 共通的特点解决问题和架构:解决一致性可用性分区容忍、负载均衡容错。。架构是分namenode和后面存储node13. 解决数据一致性的方法:2PC预提交 + 正式提交、投票、最终一致性14. 场景:py 生产者消费者 时间戳数据 怎么实现15. Queue有界的话怎么办?丢异常16. 报错怎么解决:重传、调速度17. queue锁怎么设计:互斥锁、又说了乐观锁桶锁好像跑题了。。应该有条件变量?18. 加整个queue还是怎么加?生产者生产的时候消费者没办法消费:只锁关键小段代码19. 假设分布式系统十亿数据挑选最大top10:每个服务器选top10然后归并。选的算法可以hashset、可以bitmap、可以堆排,考虑到内存。20. spark用py写的?对。。21. 卡夫卡用过:恩22. 反问感觉又要凉了,自己面的方向太多做的东西又杂.. 路漫漫其修远兮😌
查看22道真题和解析
点赞 评论 收藏
分享
评论
3
4
分享

创作者周榜

更多
牛客网
牛客企业服务