蚂蚁大数据开发22届暑假实习一二面经

一面

java

数据结构熟悉吗 栈和队列区别,两个队列实现栈
ArrayList LinkedList介绍下,区别,应用场景
简历写了GC,讲一下
并发用过吗(没

hive

  • hive数仓分层讲一下,分层方法论(?),分层的好处(?)
  • hive SQL运行机制,sql变mr,mr提交到yarn,分配资源,运行map,shuflle,reduce,输出结果到hdfs
  • hive优化:讲了某个reduce任务很重,一直占用资源,讲了下hive负载均衡;更换mr为spark,给yarn开capacity队列,这个问题应该是问数据倾斜, 我因为数据太少了就没敢说,讲的是负载的方面
  • 问了个 一个city字段一个count,group by数据倾斜,怎么办
    count多的city,用where查询分开统计。。。
  • 大小表join

    其他

  • 项目数据哪儿来的
  • java使用程度,写过demo 没做过工程
  • 意见:多思考,多去研究为什么这样做

笔试加试

算法:剑指offer53
sql:
用户行为表tracking_log,大概字段有(user_id‘用户编号’,opr_id‘操作编号’,log_time‘操作时间’)
需求:
1、计算每天的访客数和他们的平均操作次数。
2、统计每天符合以下条件的用户数:A操作之后是B操作,AB操作必须相邻。

答案:
1.

select date(log_time),count(distinct user_id) as user_num,avg(num_ci) as avg_operqationcount
from
(select date(log_time),user_id,count(opr_id) as num_ci from tracking_log group by date(log_time),user_id)
group by date(log_time)
# 我写的
select T.log_time, count(distinct T.user_id) as '访客数', count(T.opr_id)/count(distinct T.user_id) as '平均操作次数'
from tracking_log as T
group by T.log_time

2.

# 没写出来
select date(log_time),count(distinct user_id) as user_num
from
(select user_id,date(log_time),opr_id,lead(opr_id,1) over(partition by user_id order by lod_time) as opr_id_2 from tracking_log)
where opr_id='A' and opr_id_2='B'
group by date(log_time)

二面

自我介绍
论文介绍
项目介绍
项目为什么用flume+kafka?
hive数仓分层,每一层都干了什么

二面面试官说过了,过了一天挂了,说绩点低了hr不要

#大数据开发工程师##蚂蚁集团##实习##面经#
全部评论
请问楼主是研究生吗?
点赞 回复
分享
发布于 2021-04-03 22:13
请问楼主的绩点多少?
点赞 回复
分享
发布于 2021-05-04 23:34
联易融
校招火热招聘中
官网直投

相关推荐

6 33 评论
分享
牛客网
牛客企业服务