2020-02-28 10:30 已编辑陕西理工大学大数据开发工程师

关注

布隆过滤器

布隆过滤器

什么是布隆过滤器？

布隆过滤器（Bloom Filter）是一个叫做Bloom的人在1970年提出的。我们可以将它看作是由二进制向量（或者说位数据）和一系列的随机映射函数（哈希函数）两部分组成的数据结构。相比于List/Map/Set等数据结构，它占用的空间更少而且效率更高，但是缺点是返回的结果是概率性的，而不是非常准确的。理论下添加到集合中的元素越多，错误的可能性就越大。并且，存放在布隆过滤器的数据不易被删除。

位数组中的每个元素都只占用1bit，而且每个元素只能是0或1。这样申请一个容量非常大的数组只需要很少的空间就可以实现。

布隆过滤器是一种数据结构，这种数据结构是高效而且性能很好的，但缺点是具有一定的错误识别率和删除难度。并且，理论情况下，添加到集合中的元素越多，错误的可能性就越大

布隆过滤器的原理

当一个元素加入到布隆过滤器中时：

1. 使用布隆过滤器中的哈希函数对元素值进行计算，得到哈希值（有几个哈希函数就得到几个哈希值）
2. 根据得到的哈希值，在位数组中把对应下标的值设置为1

当需要判断一个元素是否存在于布隆过滤器中时：

1. 对给定元素再次进行相同的哈希计算
2. 得到值之后判断数组中的每个元素是否都为1，如果值都是1，那么说明这个元素在布隆过滤器中，如果存在一个值不等于1，说明该元素不在布隆过滤器中

一个简单的例子：

如图所示，当字符串要存储到布隆过滤器中时，现将该bit数组的每一位全部初始化为0，该字符串首先由多个哈希函数生成不同的哈希值，然后在对应的位数组的下标的元素值设置为1。当第二次存储相同的字符串时，因为之前的对应为已经全部设置为1，所有很容易就知道这个元素已经存在了。

如果我们要判断某个字符串是否在布隆过滤器中时，只需要对给定字符串再次进行相同的哈希计算，得到值之后查看bit数组的指定位的元素是否为1，如果值都是1，那么说明这个字符串可能在布隆过滤器中，如果存在一个值不为1，说明该元素一定不在布隆过滤器中。

注意：不同的字符串哈希出来的位置可能相同，这种情况我们可以适当增加数组大小或者调整哈希函数
布隆过滤器说某个元素存在，则可能会出现小概率的误判。布隆过滤器所某个元素不存在，则一定不存在

布隆过滤器使用场景

判断给定数据是否存在：比如判断一个数字是否存在于包含大量数字的集合中（数据集很大，亿级以上）、方式缓存穿透（判断请求的数据是否有效避免直接绕过缓存请求数据库）等等、邮箱的垃圾邮件过滤、黑名单功能等等。
去重：比如爬给定网址的时候对已经爬取过的URL去重。

布隆过滤器Java实现

1. 一个合适大小的位数组保存数据
2. 几个不同的哈希函数
3. 添加元素到位数组（布隆过滤器）的方法实现
4. 判断给定元素是否存在于位数组（布隆过滤器）的方法实现

import java.util.BitSet;

/** * @author xiaoer * @date 2019/12/16 19:35 */
public class BloomFilter {
    /** * 位数组的大小 */
    private static final int DEFAULT_SIZE = 2 << 24;

    /** * 通过这个数组可以创建6个不同的哈希函数 */
    private static final int[] SEEDS = new int[]{3, 13, 46, 71, 91, 134};

    /** * 位数组，数组中的元素只能是0或者1 */
    private BitSet bits = new BitSet(DEFAULT_SIZE);

    /** * 存放包含 Hash 函数的类的数组 */
    private SimpleHash[] functions = new SimpleHash[SEEDS.length];

    /** * 初始化多个包含 Hash 函数的类的数组，每个类中的 Hash 函数都不一样 */
    public BloomFilter() {
        // 初始化多个不同的 Hash 函数
        for (int i = 0; i < SEEDS.length; i++) {
            functions[i] = new SimpleHash(DEFAULT_SIZE, SEEDS[i]);
        }
    }

    /** * 添加元素到位数组 * * @param value 要添加的元素 */
    public void add(Object value) {
        for (SimpleHash function : functions) {
            bits.set(function.hash(value), true);
        }
    }

    /** * 判断指定元素是否存在于位数组 * * @param value 要判断的元素 * @return 是否存在布隆过滤器中 */
    public boolean contains(Object value) {
        boolean ret = true;
        for (SimpleHash function : functions) {
            ret = ret && bits.get(function.hash(value));
        }
        return ret;
    }

    /** * 静态内部类，用于 Hash 操作 */
    private class SimpleHash {
        private int capacity;
        private int seed;

        public SimpleHash(int capacity, int seed) {
            this.capacity = capacity;
            this.seed = seed;
        }

        /** * 计算 hash 值 * * @param value * @return */
        public int hash(Object value) {
            int h;
            return (value == null) ? 0 : Math.abs(seed * (capacity - 1) & ((h = value.hashCode()) ^ (h >>> 16)));
        }
    }
}

import org.junit.Test;

/** * @author xiaoer * @date 2019/12/16 19:50 */
public class Main {
    @Test
    public void bloomFilter() {
        String value1 = "http://oracle.org";
        String value2 = "https://oracle.org";
        BloomFilter filter = new BloomFilter();
        System.out.println(filter.contains(value1));
        System.out.println(filter.contains(value2));
        filter.add(value1);
        filter.add(value2);
        System.out.println(filter.contains(value1));
        System.out.println(filter.contains(value2));
    }
}

结果如下：

全部评论

推荐最新楼层

01-14 14:34

学而思_学科教育管理(准入职员工)

学而思内推，学而思内推码

1️⃣简单介绍一下自己2️⃣有考研考公的打算吗3️⃣为什么选择和专业不同的一个行业4️⃣在大学生活中发生过什么让你压力很大的事吗5️⃣你在🎵和🍠上对学而思有了解吗6️⃣怎样看待续报7️⃣如果线上带班给你几百人，你能接受吗8️⃣父母支持你的工作吗9️⃣你对薪酬待遇有什么了解和意见吗学而思教育（好未来）2026届提前批校园招聘进行中【企业介绍】国内教培行业龙头，上市企业；学而思成立于2003年，是好未来旗下综合性教育品牌，目前已有39所分校、350+教学点。【面向对象】22-25届毕业生均可投递，专业不限，应聘阶段无教资要求【招聘岗位】全职授课主讲教师-高中：数、理、化、英-彼芯：理科、文科-...

点赞评论收藏

分享

01-17 18:51

已编辑

门头沟学院 Web前端

重生之我回到暑期实习投递前一个月！

27届好卷，暑期实习现在好几家都开了，鼠鼠于十二月中旬左右开始投递简历，于1.9号收到猪厂OC，找寒假实习也告一段落，总结一下者大半个月的面试经历，并立贴展望备战暑期的目标。总结：大部分日常实习60%运气40%实力，一时的挂千万不要怀疑自己，坚持下去总会有offer简历有过实习经历，大部分面试将从实习展开，总结好实习做的业务以及偷学的工程化建设算法手撕是底线，没撕出来大部分可能会凉回答问题有框架有条理，胜率将大大提升1、打破面试的焦虑，淡淡的就会顺顺的！没面试焦虑，有面试焦虑准备的不足。但现实情况是每一场的面试你准备的可能都不一定能中，放平心态，将面试当作一场技术交流，查漏补缺的机会！2、总结...

点赞评论收藏

分享

2025-12-08 00:25

门头沟学院 Java

实习简历水分可太大了

绝对短实习更好，hr根本不会管你实习了多久，但你进了几个大厂，干了什么活那可是很重要的，哪怕就干了一个月，实际上摸熟悉了业务简历上写三个月也没事

未来梦幻：是真的，实习生最好别超过半年，后面就被当机器人使了

实习越久越好，还是多多益...

点赞评论收藏

分享

2025-12-17 22:19

已编辑

百度_MEG_后端开发实习(实习员工)

纪念一下27第一次拿到大厂实习

自己几个月的努力没有白费，真的很开心，也重新拾起能让自己自信的勇气感谢之前各位素不相识的牛友们的鼓励与支持这一刻，坚持仙蛊，练成！

海梨花：加油吧兄弟，已经准备跑路了

发面经攒人品

点赞评论收藏

分享

01-13 14:59

学而思_HR(准入职员工)

学而思内推，学而思内推码

1️⃣ 请先做个简单的自我介绍？ 😊 2️⃣ 能否谈下你应聘这个岗位的优势？ 🌟 3️⃣ 你的职业规划是什么？ 🎯 4️⃣ 为什么选择学而思作为你的求职目标？ 🏢 5️⃣ 你对学而思的课程顾问岗位有哪些了解？ 📋 6️⃣ 描述一次团队合作的经历，你在其中扮演了什么角色？ 🤝 7️⃣ 遇到工作压力大时，你通常如何应对？ 😊 8️⃣ 面对家长和学生的投诉，你会如何处理？ 💬 9️⃣ 如何向一个对学而思课程持怀疑态度的家长介绍课程？ 📚 🔟 请举例说明你如何通过有效沟通解决过一个问题。 💡 1️⃣1️⃣ 描述一次你认为成功的销售或推广经验。 🚀 1️⃣2️⃣ 你如何看待持续学...

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你最近因为什么迷茫？ #

3642次浏览 79人参与

# 秋招有哪些公司要求提前实习 #

102084次浏览 542人参与

# 领导做过最不靠谱的事 #

2602次浏览 51人参与

# 求职你最看重什么？ #

151913次浏览 882人参与

# 你都在哪些场所面过试？ #

2399次浏览 39人参与

# 实习转正进行时 #

137921次浏览 892人参与

# 当发现同事想辞职 #

13530次浏览 44人参与

# 工作压力大怎么缓解 #

132302次浏览 1137人参与

# 实习心态崩了 #

99815次浏览 502人参与

# 制造业的秋招小结 #

139294次浏览 2078人参与

# 电网求职进展汇总 #

37145次浏览 112人参与

# 运营商笔面经互助 #

195390次浏览 1804人参与

# 打工人锐评公司红黑榜 #

190890次浏览 1051人参与

# 在找工作求抱抱 #

1639266次浏览 10960人参与

# 担心入职之后被发现很菜怎么办 #

275736次浏览 1176人参与

# 哪些公司对双非友好 #

200687次浏览 1150人参与

# 面试被问期望薪资时该如何回答 #

338408次浏览 2104人参与

# 电信求职进展汇总 #

38108次浏览 195人参与

# 校招谈薪技巧 #

126390次浏览 1353人参与

# Prompt分享 #

5315次浏览 139人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务