2019-06-06 16:22 已编辑中山大学 golang

关注

海量数据判重

1. 问题描述

对于海量数据，要求判断一个数据是否已经存在。这个数据很有可能是字符串，例如 URL。

2. HashSet

最直观的方法是使用 HashSet 存储，那么就能以 O(1) 的时间复杂度判断一个数据是否已经存在。

考虑到数据是海量的，那么就需要使用拆分的方式将数据拆分到多台机器上，分别在每台机器上使用 HashSet 存储。我们需要使得相同的数据拆分到相同的机器上，可以使用哈希取模的拆分方式进行实现。

图片说明

3. BitSet

如果海量数据是整数，并且范围不大时，就可以使用 BitSet 存储。通过构建一定大小的比特数组，并且让每个整数都映射到这个比特数组上，就可以很容易地知道某个整数是否已经存在。因为比特数组比整型数组小的多，所以通常情况下单机就能处理海量数据。

图片说明

以下是一个 BitSet 的实现，当然在实际开发中可以直接使用语言内置的实现。

图片说明

使用 BitSet 还可以很容易地解决一个整数出现次数的问题，例如使用两个比特数组就可以存储 0~3 的信息。其实判重问题也可以简单看成一个数据出现的次数是否为 1，因此一个比特数组就够了。

4. 布隆过滤器

布隆过滤器能够以极小的空间开销解决海量数据判重问题，但是会有一定的误判概率。它主要用在网页黑名单系统、垃圾邮件过滤系统、爬虫的网址判重系统。

布隆过滤器也是使用 BitSet 存储数据，但是它进行了一定的改进，从而解除了 BitSet 要求数据的范围不大的限制。在存储时，它要求数据先经过 k 个哈希函得到 k 个位置，并将 BitSet 中对应位置设置为 1。在查找时，也需要先经过 k 个哈希函数得到 k 个位置，如果所有位置上都为 1，那么表示这个数据存在。

由于哈希函数的特点，两个不同的数通过哈希函数得到的值可能相同。如果两个数通过 k 个哈希函数得到的值都相同，那么使用布隆过滤器会将这两个数判为相同。

可以知道，令 k 和 m 都大一些会使得误判率降低，但是这会带来更高的时间和空间开销。

布隆过滤器会误判，也就是将一个不存在的数判断为已经存在，这会造成一定的问题。例如在垃圾邮件过滤系统中，会将一个邮件误判为垃圾邮件，那么就收不到这个邮件。可以使用白名单的方式进行补救。

图片说明

5. Trie

Trie 树又叫又叫字典树、前缀树、单词查找树，它是一颗多叉查找树。与二叉查找树不同，键不是直接保存在节点中，而是由节点在树中的位置决定。

如果海量数据是字符串数据，那么就可以用很小的空间开销构建一颗 Trie 树，空间开销和树高有关。

图片说明

Leetcode : Implement Trie (Prefix Tree)

图片说明

参考资料

Bloom Filters: Is element x in set S?

个人博客

https://github.com/CyC2018/CS-Notes

开源在 Github 上的个人博客，总结了技术面试必备的基础知识，在 Github 上关注数排在二十名左右。

#leetcode##面经##笔试题目##春招##实习#

全部评论

推荐最新楼层

门头沟学院金融分析师

优秀的cyc

点赞回复分享

发布于 2019-02-15 16:39

西安电子科技大学算法工程师

请问bitset的方法为什么要除32，模32，之前学过，后来忘了😂

点赞回复分享

发布于 2019-02-14 11:43

牛客2347492号

蚂蚁集团_选品平台_开发

前排围观巨佬

点赞回复分享

发布于 2019-02-14 10:34

湖南大学 Java

膜巨佬

点赞回复分享

发布于 2019-02-13 23:46

华中科技大学 C++

配图颜值高

点赞回复分享

发布于 2019-02-13 23:42

只是个废柴

中国矿业大学 golang

谢谢，学习到了

点赞回复分享

发布于 2019-02-13 21:08

牛客网创始人

配图颜值高啊。

点赞回复分享

发布于 2019-02-13 20:32

10-21 21:39

门头沟学院 Java

别再让家人问 “你到底干啥的”！码农解释工作小诀窍

1. 先给工作定个 “通俗人设”：不是 “写代码的”，是软件开发工程师（提高一个逼格档次）别一上来就说 “我写代码”，家人可能会联想到 “修电脑的” 或者 “打游戏的”。可以直接用他们懂的职业类比，一句话拉近距离，感觉你工作有点low。对爸妈说：“我就像家里装修时的木工 + 电工，不过我装的不是房子，是手机里的 APP、你用的购物软件。软件里点一下就能付款、刷视频不卡，背后都是我和同事们‘搭框架、接线路’弄好的。”对爷爷奶奶说：“您平时用微信发语音、看天气预报，这些功能能正常用，就像家里的电视能正常看节目一样。我就是负责‘保养’这些功能的人，要是哪里点不开、用着卡，我就去‘修’好它。”2. 把...

投递大连飞创信息技术有限公司等公司10个岗位

点赞评论收藏

分享

10-20 10:38

厦门大学驱动开发

嵌入式面经(freertos)

1.概述与移植简述freertos系统freertos是一个实时操作系统，它内核比较小，可移植性高，适用于多种硬件平台，具有任务调度，中断管理等功能；裸机开发和rtos开发的区别？裸机开发直接对硬件进行操作，没有任务调度机制，需要手动管理内存，没有同步机制；rtos不依赖于硬件平台，可移植性高，有任务调度机制，内存管理机制，和同步机制；2.为什么会在项目中使用RTOS？对于简单的单一任务，我们会考虑裸机开发；但对于业务比较复杂的，我们会使用rtos，可以更好的实现复杂的业务逻辑同时更具有实时性；3.freertos启动流程？1.硬件初始化；2.系统初始化；3.创建任务；4.开启调度器；4.fr...

查看14道真题和解析

点赞评论收藏

分享

09-24 18:30

已编辑

长春工业大学产品经理

啥也不说了xdm，爱了👍👍👍

小肥罗：HR就是好人的缩写哈哈哈哈

点赞评论收藏

分享

10-23 12:04

北京信息科技大学材料工程师

这个简历有点强

这简直就是我

迷茫的大四🐶：这就是他们口中的ai时代的一人公司

点赞评论收藏

分享

10-20 11:17

嘉士伯_供应链管培生(准入职员工)

嘉士伯内推，嘉士伯内推码

嘉士伯 工程设备管理 一面面经岗位：供应链管培生（工程设备管理）时间线：8.26投递、9.2一面一、自我介绍二、面试问题一面是AI面试，大概有下面这些问题1. 遇到的挫折2. 如何解决、细节3. 学习最困难的技能、课程4. 如何解决5. 选择非一线城市6. 为什么7. 岗位匹配度8. 为什么感受：第一次AI面试，感觉有点奇怪的⏰嘉士伯中国2026年校招9.3启动【公司介绍】嘉士伯（Carlsberg）是全球领先的啤酒集团之一,世界第四大啤酒集团,世界最知名国际品牌之一【岗位包括】综合管理培训生、销售专才、供应链管培生等【工作地点】北京、广州、佛山、惠州、东莞、厦门、南京、常州、郑州、重庆、宜宾...

点赞评论收藏

分享

评论

9

104

招聘动态

联易融

2026届秋季校园招聘

杉川集团2026届校招

杉尖计划·与杉川一览群山

真格基金

被投企业秋季联合校招

瓴岳科技

2026届“登岳计划”校招启动

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

字节跳动

2026校园招聘

平安产险科技中心

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客树洞，我想对你说 #

18171次浏览 135人参与

# 大学最后一个寒假，我想…… #

55699次浏览 612人参与

# 快手技术岗信息交流阵地 #

7954次浏览 58人参与

# 你最满意的offer薪资是哪家公司？ #

42732次浏览 213人参与

# 求职中的尴尬瞬间 #

7373次浏览 65人参与

# 应届生被毁约被毁意向了怎么办 #

48113次浏览 282人参与

# 机械人避雷的岗位/公司 #

30411次浏览 250人参与

# 牛客周边新品开箱 #

11961次浏览 91人参与

# 研究所笔面经互助 #

98065次浏览 550人参与

# 国央企薪资爆料 #

123455次浏览 580人参与

# 如何KTV领导 #

74383次浏览 505人参与

# 硬件人的春招flag #

53224次浏览 435人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

137887次浏览 884人参与

# 牛友的志愿填报指南 #

36771次浏览 189人参与

# 打工人锐评公司红黑榜 #

176304次浏览 1023人参与

# 怎么给家人解释你的工作？ #

15719次浏览 94人参与

# 得物app工作体验 #

30336次浏览 69人参与

# 国企还是互联网，你怎么选？ #

172940次浏览 1311人参与

# 25届非技术实习投递记录 #

132484次浏览 992人参与

# 大疆工作体验 #

20259次浏览 85人参与

# 机械人集合！你是什么工程师？ #

21418次浏览 91人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务