求助关于sql的面试题

服务器每天产生30亿的访问日志，
每一行日志包括字段：device_id, country, channel_id,date,ip, ......
其中device_id表示设备，country表示国家，channel_id表示渠道，date表示日期，......
已知device_id去重总数不到10亿，每天缓慢增加，缓慢到可以忽略不计；
已知country长度最长3个大写字母，channel_id取值范围是100-999；
已知device_id为36个字符组成；
现在要分析：
1、不同国家的device_id去重计数是多少，
2、不同渠道的device_id去重计数是多少，
3、不同渠道独有的device_id去重计数是多少，（因为一个设备可能在不同渠道出现，也可能只在某一个渠道出现）
4、渠道100的设备与其他渠道（101～999）的设备重复率是多少，
要求：
1、写出各个要求的伪sql（不限方言）
2、在计算第四点时如果是 10亿的device_id表 left join 10亿的device_id表，速度较慢，如何解决？
（不限方言，最好是spark，不要求能运行，逻辑对即可；可以自定义算子，算子功能描述清楚即可）

全部评论

推荐最新楼层

昨天 12:58

科大讯飞_教育BG_后端开发(准入职员工)

最慷慨的公司是JD

虽然JD工作强度很高，但是薪资给的还是很好的，给的是行业内数一数二的实习薪资，一天下来还有餐补，一个月还有1500的房补，最重要的是JD在北京是在通州区，郊区的租房比海淀区方便多了。

你知道最慷慨和最抠的公司...

点赞评论收藏

04-23 18:24

湖南农业大学产品经理

昨天面腾讯挂了的兄弟，进来挨骂

你的简历根本没命中JD里的隐藏考点【纯干货，无废话，建议先收藏再看，免得想用的时候找不到了】兄弟们，我是真的急了。刚才帮一个学弟看面经，我真的想顺着网线过去摇醒他。他面的是某大厂的商业化运营，简历上写得花里胡哨什么“负责社群活跃”、“策划线上活动”结果面试官上来就问：“如果给你一个ROI为负的新品，你第一周会怎么拆解归因？”学弟直接懵逼，支支吾吾说了半天，最后挂了。其实这道题，JD里早就写了！JD里明明写着“对数据敏感，能通过数据分析优化投放策略”。但他没看出来面试官就是在考他“数据归因”和“策略优化”。这就是典型的“无效准备”。你背了一堆八股文，结果人家问的是业务场景题。今天我不整虚的，直接...

简历被挂麻了，求建议

点赞评论收藏

03-03 23:12

已编辑

北京邮电大学 Java

27届找暑期，简历求拷打

书海为家：我来给一点点小建议，因为毕竟还在学校不像工作几年的老鸟有丰富的项目经验，面试官在面试在校生的时候更关注咱们同学的做事逻辑和思路，所以最好在简历中描述下自己做过项目的完整过程，比如需求怎么来的，你对需求的解读，你想到的解决办法，遇到困难如何找人求助，最终项目做成了什么程度，你从中收获了哪些技能，你有什么感悟。

你的简历改到第几版了

点赞评论收藏