2023-09-10 10:49 门头沟学院大数据开发工程师

关注

BitMap在数仓领域的应用【面试加分项】

很多人问我：三石兄，简历没什么亮点怎么办，模型优化除了知道mapjoin，其他啥都不知道，那么这篇文章就可以成为你在面试过程中跟面试官谈论的一个亮点！！！

1.背景

需求：统计8月每种商品类别的购买人数

select mer_type, count(distinct uid)
from t -- 表t在100G左右
where dt between '20230801' and '20230831'
group by mer_type

背景：这个任务跑了2h仍未跑出结果，就是因为count distinct在大数据量的情况下，性能巨差，于是想要使用bitmap来对其进行优化！

2.技术原理

2.1 BitMap

2.1.1 定义

BitMap的基本原理就是用一个bit来标记元素是否存在，因为仅用1个bit来存储一个数据，所以可以大大的节省空间；假设要使用BitMap来存储（1，5，1）这几个数字，如何存储呢？

0	1	2	3	4	5	6	7
0	1	0	0	0	1	0	0

2.1.2 使用场景

海量数据量下求不重复的整数的个数

2.1.3 代码实现

以下代码可以直接运行

class Bitmap:
	def __init__(self, size):
		self.size = size
		self.bitmap = [0] * ((size + 31) // 32)
	def set(self, num):
		index = num // 32
		offset = num % 32
		self.bitmap[index] |= (1 << offset)
	def test(self, num):
	  	index = num // 32
		offset = num % 32
		return (self.bitmap[index] & (1 << offset)) != 0
def remove_dup(nums):
  	bitmap = Bitmap(len(nums))
	res = []
	for num in nums:
	  	if not bitmap.test(num):
		  	bitmap.set(num)
			res.append(num)
	return res
 # 测试
nums = [1,2,3,4,1,3]
res = remove_dup(nums)
print(res) # [1,2,3,4]

2.2 RoaringBitMap

2.2.1 BitMap的问题

不管业务中实际的元素基数有多少，它占用的内存空间都恒定不变
数据越稀疏，空间浪费越严重

2.2.2 定义

将数据的前半部分，即216(这里为高16位)部分作为桶的编号，将分为216=65536个桶，RBM中将这些小桶叫做container
存储数据时，按照数据的高16位做为container的编号去找对应的container(找不到就创建对应的container)，再将低16位放入该container中
所以一个RBM是很多container的集合

2.2.3 代码实现

import pyroaring
def remove_dup(nums):
  	bitmap = pyroaring.BitMap()
	res = []
	for num in nums:
	  	if num not in bitmap:
		  	bitmap.add(num)
			res.append(num)
# 测试
nums = [1,2,3,4,1,3]
res = remove_dup(nums)
print(res) # [1,2,3,4]

3.案例分析

需求：统计8月每种商品类别的购买人数

3.1 定义UDF函数

import pyroaring
from pyhive import hive
def remove_dup(nums):
  	bitmap = pyroaring.BitMap()
	res = []
	for num in nums:
	  	if num not in bitmap:
		  	bitmap.add(num)
			res.append(num)
	return len(res)

3.2 创建UDF函数

CREATE FUNCTION remove_dup(nums array) RETURNS int
AS 'SELECT remove_dup(nums) FROM bitmap.py' LANGUAGE PYTHON;

3.3 使用UDF函数

select mer_type, remove_dup(collect_list(uid))
from t -- 表t在100G左右
where dt between '20230801' and '20230831'
group by mer_type

#数据人的面试交流地##晒一晒我的offer##我发现了面试通关密码##如何判断面试是否凉了##牛客在线求职答疑中心#

全部评论

推荐最新楼层

03-06 08:04

蚌埠坦克学院嵌入式软件开发

芯海科技嵌入式开发软件开发一面面经

1. 先做个自我介绍，说说你对这个岗位的理解参考答案：面试官您好，我是XXX，目前是XX大学XX专业的学生。我主要的技术方向是嵌入式系统开发，熟悉C/C++编程、RTOS、常见通信协议等。做过基于STM32的XX项目，使用FreeRTOS实现多任务调度，用到了UART、SPI、I2C等外设通信。对于这个岗位，我理解主要是做嵌入式固件开发，包括驱动开发、RTOS应用、通信协议实现、系统调试优化等工作。芯海科技在ADC芯片和MCU方面有很强的技术实力，我希望能在这里深入学习芯片底层开发，积累实际项目经验，提升自己的技术能力。2. 说说RTOS的工作原理，你用过哪些RTOS？它们的调度机制是怎样的？...

嵌入式面试八股文全集

点赞评论收藏

03-07 12:10

腾讯_IEG_后台开发实习生

🐧腾讯 vs 🌍字节：最新实习生待遇全方位大PK，你pick哪一家？

#实习生的生存小技巧#对比项腾讯-IEG（Agent方向）字节-抖音电商（业务方向）人体工学椅好评（win）脖子无法调节、不能后仰，被内部【字节圈】狂喷不止升降桌需自费购买全员标配，对腰部友好实习生日常工时9:30～20:3010:30～21:00提前下班日每周三+周五（约18点多下班）双周周三+周五（约18点多下班）休息时间中午2.5小时（关灯睡觉），晚上1小时中午2小时（不关灯，部分组加班），晚上1小时薪资福利• 7500/月 + 2000房补（中间月份出勤即全额） • 异地实习生2000交通补贴 • 无夜间打车报销 • 新人7天免费酒店 • 节假日礼盒，26年开工红包400元• 500元...

腾讯公司氛围 3628人发布

点赞评论收藏

03-07 20:50

中国科学技术大学 Java

今年字节实习来了波大的

刚刷到字节跳动官方发的消息，确实被这波阵仗吓了一跳。在大家还在纠结今年行情是不是又“寒冬”的时候，字节直接甩出了史上规模最大的转正实习计划——ByteIntern。咱们直接看几个最硬的数，别被花里胡哨的宣传词绕晕了。首先是“量大”。全球招7000多人是什么概念？这几乎是把很多中型互联网公司的总人数都给招进来了。最关键的是，这次的资源分配非常精准：研发岗给了4800多个Offer，占比直接超过六成。说白了，字节今年还是要死磕技术，尤其是产品和AI领域，这对于咱们写代码的同学来说，绝对是今年最厚的一块肥肉。其次是大家最关心的“转正率”。官方直接白纸黑字写了：整体转正率超过50%。这意味着只要你进去了，不划水、正常干，每两个人里就有一个能直接拿校招Offer。对于2027届（2026年9月到2027年8月毕业）的同学来说，这不仅是实习，这简直就是通往大厂的快捷通道。不过，我也得泼盆冷水。坑位多，不代表门槛低。字节的实习面试出了名的爱考算法和工程实操，尤其是今年重点倾斜AI方向，如果你简历里有和AI相关的项目，优势还是有的。而且，转正率50%也意味着剩下那50%的人是陪跑的，进去之后的考核压力肯定不小。一句话总结： 27届的兄弟们，别犹豫了。今年字节这是铁了心要抢提前批的人才，现在投递就是占坑。与其等到明年秋招去千军万马挤独木桥，不如现在进去先占个工位，把转正名额攥在手里。

喵_coding：别逗了 50%转正率仔细想想就是转正与不转正

哪些公司开暑期实习了？

点赞评论收藏

03-08 15:04

北京邮电大学 Java

求简历拷打

无实习经历，下周准备开始投暑期了，java后端方向，最后再看怎么修改一下

点赞评论收藏

03-07 11:24

复旦大学 Java

暑期实习扎堆开启，今天说点暑期实习的真相！

大家好，我是@程序员花海，最近看到暑期实习大量开启，恰好今天来和大家聊一聊暑期实习的真相和注意事项！今天不废话，直接说大家最关心的问题！1.暑期实习的流程？笔试 面试（1-3轮技术面）+HR面，其中笔试是分为不同批次的，大家可以参考下今年美团的笔试安排。目前看每个月会安排三场笔试，那么笔试题大概会考哪些内容呢？可以看下我的原创文章：https://www.nowcoder.com/feed/main/detail/20e7a999fa04485b88340a274411ca0d?sourceSSR=users 另外，笔试题里面也有选择题，最近很多公司也会引入AI面，这部分要认真对待，因为AI面...

秋招，不懂就问

点赞评论收藏

招聘动态

贝壳找房

2026届春季校园招聘

恒生电子

2026届春季校园招聘

网易游戏雷火

27届精英实习&26届补招开启！

EA China

2026校园新锐招聘计划

搜狐畅游

26届春招火热进行中

OPPO

2027届寻梦实习招聘

高通

2026实习生招聘

27届校招宝典

AI网申助手

网申字段一键填写

米哈游2026校园招聘

应届生春招&全年实习生专项

全站热榜

创作者周榜

正在热议

# 春招 / 实习投递，你最焦虑的一件事 #

5320次浏览 70人参与

# HR问：你期望的薪资是多少？如何回答 #

# 你觉得mentor喜欢什么样的实习生 #

51860次浏览 1011人参与

# 24秋招避雷总结 #

954186次浏览 7052人参与