2022-08-01 22:45 已编辑数据分析师

关注

数据业务札记02：表非等值自关联的去重写法

在某些业务场景下，我们需要找到与客户信息相同（号码、地址等）的客户。这时我们很直观的想法是对表进行自关联。

我们本地建表来看一个例子：

由于这里的关联条件是或条件，我们采取等值拆分的方法来进行条件拆解。具体过程和数据业务札记01：https://www.nowcoder.com/discuss/999011类似。

这里我们运行的代码是：

select a.cu_id as id1 ,a.tele as tele1,a.place as place1,
 b.cu_id as id2 ,b.tele as tele2,b.place as place2 from cust_info1 a
left join cust_info1 b 
on 
a.tele = b.tele
where  a.tele = b.tele and a.cu_id!=b.cu_id

union all

select a.cu_id as id1 ,a.tele as tele1,a.place as place1,
b.cu_id as id2 ,b.tele as tele2,b.place as place2 from cust_info1 a
left join cust_info1 b 
on 
a.place = b.place
where  a.place = b.place and a.cu_id!=b.cu_id
order by id1

结果如下：

可以看到，我们的结果中不可避免的出现id为11的客户和id为19的关联起来，id为19的客户也和id为11的客户关联起来。

于是我们需要将冗余的部分清楚，因为在我们看来id11和id19储存的信息是一致的。这里我们可以考虑用开窗函数进行去重。

这里的小技巧是，因为在我们看来id1=11，id2=19和id1=19，id2=11没有差异，因此开窗函数的分组partition by取id1+id2，

直观的意思是id1并id2，其结果相同的纪录归为一组，并按照某一字段进行排序标号。这里我们考虑对phone1进行标号。

具体代码如下：

select * from 
(select id1,tele1,place1,id2,tele2,place2,row_number ()over(partition by id1+id2 order by tele1) rn1

from

(select a.cu_id as id1 ,a.tele as tele1,a.place as place1,
 b.cu_id as id2 ,b.tele as tele2,b.place as place2 from cust_info1 a
left join cust_info1 b 
on 
a.tele = b.tele
where  a.tele = b.tele and a.cu_id!=b.cu_id

union all

select a.cu_id as id1 ,a.tele as tele1,a.place as place1,
b.cu_id as id2 ,b.tele as tele2,b.place as place2 from cust_info1 a
left join cust_info1 b 
on 
a.place = b.place
where  a.place = b.place and a.cu_id!=b.cu_id
order by id1) c
)d
where rn1=1

结果如下：

可以看到，这个才是没有冗余信息的结果。这才是最后需要的结果。这次札记主要技巧在于使用开窗函数进行

去重，以及构造好一个特殊的分组条件来满足我们的实际需求。

#数据分析师##sql##秋招##春招##校招#

全部评论

推荐最新楼层

西南交通大学统计学类

感觉挺复杂的啊

点赞回复

发布于 2022-08-02 17:41

牛客984902720号

04-22 09:35

上海华为技术有限公司_安全工程师

为什么现在的00后好像什么都看透了？

如果说80后通过高考可以完成鲤鱼跃农门抹平一代人的差距，90后通过内卷还可以混成体面的城市中产，00后的差距可能一代人已经无法追平了。我举个我切身体会的例子，有个文科类专业叫国际政治，这类专业的就业出路基本就是考公考编，而且岗位多为一二线城市的涉外部门，也有一些毕业生通过家庭关系进入投行工作。总之，如果家庭经济条件不理想，尽量不要报考这个专业，因为原生家庭可能无法接受你毕业后长期蹲考公务员。从这个专业报考同学的家庭情况看，变化趋势就非常有意思。2017—2019年，找我咨询国际政治考研的同学大致年龄和我相仿，基本是1994—1998年出生的同学，有些家庭经济条件并不是很理想，完全是出于兴趣报考...

00后45度躺现状

点赞评论收藏

转发

昨天 01:29

已编辑

华南师范大学计算机类

在小厂实习一周后...

上周三刚入职，到现在刚好满一周了。从三月底开始投简历背八股，大厂不是挂就是流程一动不动，到四月中旬面了一家小厂的日常实习，发了offer，看到通勤不长且跟闺蜜实习的地方离得挺近，就决定先去试试，到此本小菜终于也有班可以上了。第一天上班很激动，六点就醒了，想到自己不再是学生仔，眼里不再有清澈愚蠢的光，可以迎接新的生活了就觉得很开心。到了公司发现mentor和leader都很温和，遇到不会的都会耐心解答，小组氛围也挺愉快的，一同进去的实习同事可可爱爱的，很好相处，觉得自己还是十分幸运的。第一天大概熟悉了代码后分配了一个很简单的UI开发工作，虽然很简单但是要熟悉原来别人写的代码和相关模块，还是花了很...

点赞评论收藏

转发

03-12 22:39

河南理工大学计算机类

大三想找暑假实习  自学两年前端  这个程度够吗

点赞评论收藏

转发

牛客96815552号

04-11 18:12

门头沟学院计算机类

这样就挂了吗

点赞评论收藏

转发

04-19 12:45

中山大学计算机类

想问一下大家快手搜广推算法暑期实习的情况

我的情况是投的广告算法， 4.11 面的HR，目前还没有下一步消息，打电话给HR说是等业务反馈，应该是被排序了。目前牛客看到oc的基本都是当天或第二天oc，想问一下还有没有在排序的同学。

点赞评论收藏

转发

1 3 评论

招聘动态

联易融2024届营销管培生校园招聘

小红书

24届春招&25届实习生招聘

24届春招硬件高薪职位集合

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

293268次浏览 6373人参与

# 我在牛爱网找对象 #

46020次浏览 291人参与

# 应届生应该先就业还是先择业 #

8873次浏览 96人参与

# 非技术岗薪资爆料 #

1554次浏览 72人参与

# 华为求职进展汇总 #

423040次浏览 4239人参与

# 来聊聊机械薪资天花板是哪家 #

13086次浏览 103人参与

# 第一次面试 #

7834次浏览 121人参与

# 为什么那么多公司毁约 #

30889次浏览 261人参与

# 数据人的面试交流地 #

161025次浏览 3533人参与

# 你觉得比亚迪今年还有春招吗？ #

34273次浏览 237人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

20137次浏览 193人参与

# 硬件兄弟们甩出你的华为奖状 #

23923次浏览 163人参与

# 如果再来一次，你还会学硬件吗 #

16042次浏览 325人参与

# 租房前辈的忠告 #

19068次浏览 1543人参与

# 字节跳动工作体验 #

46080次浏览 1211人参与

# 机械人的薪资开到多少，才适合去？ #

36447次浏览 207人参与

# 机械人怎么评价今年的华为 #

45352次浏览 359人参与

# 你觉得通信/硬件有必要实习吗？ #

19375次浏览 393人参与

# 聊聊这家公司值得去吗 #

56966次浏览 955人参与

# 你已经投递多少份简历了 #

236525次浏览 3828人参与

牛客网
牛客企业服务