京东数据仓库校招面经
1.列举几种数据倾斜的情况,并解释为什么会倾場咏,以及如何解决?
2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:
SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.id
WHERE a.dt='2016-01-01'AND b.dt='2016-01-01';
3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句
4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?
5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?
6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序
7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构
8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq
9.Storm 的分组策略有哪些?
2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:
SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.id
WHERE a.dt='2016-01-01'AND b.dt='2016-01-01';
3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句
4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?
5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?
6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序
7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构
8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq
9.Storm 的分组策略有哪些?
全部评论
相关推荐
查看20道真题和解析