2020-07-04 19:13

关注

B树与B+树详谈

B树与B+树详谈

B 树

B 树的英文是 Balance Tree，也就是平衡的多路搜索树，它的高度远小于平衡二叉树的高度。在文件系统和数据库系统中的索引结构经常采用 B 树来实现。

B 树的结构如下图所示：
图片说明

B 树作为平衡的多路搜索树，它的每一个节点最多可以包括 M 个子节点，M 称为 B 树的阶。同时你能看到，每个磁盘块中包括了关键字和子节点的指针。如果一个磁盘块中包括了 x 个关键字，那么指针数就是 x+1。对于一个 100 阶的 B 树来说，如果有 3 层的话最多可以存储约 100 万的索引数据。对于大量的索引数据来说，采用 B 树的结构是非常适合的，因为树的高度要远小于二叉树的高度。

一个 M 阶的 B 树（M>2）有以下的特性：

根节点的儿子数的范围是 [2,M]。
每个中间节点包含 k-1 个关键字和 k 个孩子，孩子的数量 = 关键字的数量 +1，k 的取值范围为 [ceil(M/2), M]。
叶子节点包括 k-1 个关键字（叶子节点没有孩子），k 的取值范围为 [ceil(M/2), M]。
假设中间节点节点的关键字为：Key[1], Key[2], …, Key[k-1]，且关键字按照升序排序，即 Key[i]<Key[i+1]。此时 k-1 个关键字相当于划分了 k 个范围，也就是对应着 k 个指针，即为：P[1], P[2], …, P[k]，其中 P[1] 指向关键字小于 Key[1] 的子树，P[i] 指向关键字属于 (Key[i-1], Key[i]) 的子树，P[k] 指向关键字大于 Key[k-1] 的子树。
所有叶子节点位于同一层。

上面那张图所表示的 B 树就是一棵 3 阶的 B 树。我们可以看下磁盘块 2，里面的关键字为（8，12），它有 3 个孩子 (3，5)，(9，10) 和 (13，15)，你能看到 (3，5) 小于 8，(9，10) 在 8 和 12 之间，而 (13，15) 大于 12，刚好符合刚才我们给出的特征。

然后我们来看下如何用 B 树进行查找。假设我们想要查找的关键字是 9，那么步骤可以分为以下几步：

我们与根节点的关键字 (17，35）进行比较，9 小于 17 那么得到指针 P1；
按照指针 P1 找到磁盘块 2，关键字为（8，12），因为 9 在 8 和 12 之间，所以我们得到指针 P2；
按照指针 P2 找到磁盘块 6，关键字为（9，10），然后我们找到了关键字 9。

你能看出来在 B 树的搜索过程中，我们比较的次数并不少，但如果把数据读取出来然后在内存中进行比较，这个时间就是可以忽略不计的。而读取磁盘块本身需要进行 I/O 操作，消耗的时间比在内存中进行比较所需要的时间要多，是数据查找用时的重要因素，B 树相比于平衡二叉树来说磁盘 I/O 操作要少，在数据查询中比平衡二叉树效率要高。

B+ 树

B+ 树基于 B 树做出了改进，主流的 DBMS 都支持 B+ 树的索引方式，比如 MySQL。

B+ 树和 B 树的差异在于以下几点：

有 k 个孩子的节点就有 k 个关键字。也就是孩子数量 = 关键字数，而 B 树中，孩子数量 = 关键字数 +1。
非叶子节点的关键字也会同时存在在子节点中，并且是在子节点中所有关键字的最大（或最小）。
非叶子节点仅用于索引，不保存数据记录，跟记录有关的信息都放在叶子节点中。而 B 树中，非叶子节点既保存索引，也保存数据记录。
所有关键字都在叶子节点出现，叶子节点构成一个有序链表，而且叶子节点本身按照关键字的大小从小到大顺序链接。

B + 树的结构如下图所示：
图片说明

比如，我们想要查找关键字 16，B+ 树会自顶向下逐层进行查找：

与根节点的关键字 (1，18，35) 进行比较，16 在 1 和 18 之间，得到指针 P1（指向磁盘块 2）
找到磁盘块 2，关键字为（1，8，14），因为 16 大于 14，所以得到指针 P3（指向磁盘块 7）
找到磁盘块 7，关键字为（14，16，17），然后我们找到了关键字 16，所以可以找到关键字 16 所对应的数据。

整个过程一共进行了 3 次 I/O 操作，看起来 B+ 树和 B 树的查询过程差不多，但是 B+ 树和 B 树有个根本的差异在于，B+ 树的中间节点并不直接存储数据。这样的好处都有什么呢？

首先，B+ 树查询效率更稳定。因为 B+ 树每次只有访问到叶子节点才能找到对应的数据，而在 B 树中，非叶子节点也会存储数据，这样就会造成查询效率不稳定的情况，有时候访问到了非叶子节点就可以找到关键字，而有时需要访问到叶子节点才能找到关键字。

其次，B+ 树的查询效率更高，这是因为通常 B+ 树比 B 树更矮胖（阶数更大，深度更低），查询所需要的磁盘 I/O 也会更少。同样的磁盘页大小，B+ 树可以存储更多的节点关键字。

不仅是对单个关键字的查询上，在查询范围上，B+ 树的效率也比 B 树高。这是因为所有关键字都出现在 B+ 树的叶子节点中，并通过有序链表进行了链接。而在 B 树中则需要通过中序遍历才能完成查询范围的查找，效率要低很多。

总结

磁盘的 I/O 操作次数对索引的使用效率至关重要。虽然传统的二叉树数据结构查找数据的效率高，但很容易增加磁盘 I/O 操作的次数，影响索引使用的效率。因此在构造索引的时候，我们更倾向于采用“矮胖”的数据结构。

B 树和 B+ 树都可以作为索引的数据结构，在 MySQL 中采用的是 B+ 树，B+ 树在查询性能上更稳定，在磁盘页大小相同的情况下，树的构造更加矮胖，所需要进行的磁盘 I/O 次数更少，更适合进行关键字的范围查询。
图片说明

全部评论

推荐最新楼层

12-28 13:23

中南大学 Java

Java实习什么才算是产出？

27届最近刚开始java后端实习，目的是赶在3月份前有一个能看得过去的实习经历，后面找暑期实习也许更有优势。目前还是不清楚什么样的内容可以写到简历上，尤其是实习生接触不到核心业务，分配的任务大多都是管理端的crud。核心的业务代码大部分看不到，文档也只有少部分能接触到。感觉后续就是一直打打杂，写一些简单的接口，就算是要偷产出也没有方向（时间有限怕偷的质量不好日后被面试官全盘否定）。所以请教各位大佬什么内容可以是合格的产出呢？

点赞评论收藏

分享

12-29 22:34

武汉大学 Java

20251225【字节】面试算法真题（共1题）

题目1：求数组的最大区间和

查看1道真题和解析

点赞评论收藏

分享

11-26 02:29

北京虾皮信息科技有限公司_今日头条_前端工程师(准入职员工)

和女朋友一起北漂啦

女朋友签约了滴滴我签约了字节明年就可以开始北漂生活啦

尼公子的虾滑海鲜粥：你好，举报在哪里，替我点一下

点赞评论收藏

分享

12-29 15:14

上海得物信息集团有限公司_java开发工程师(准入职员工)

得物内推，得物内推码

得物测开一面面经，摘自优秀牛油面试时间：24/10/19面试时长：30 min1. 自我介绍； 2. 为什么找测试岗位； 3. 讲一下测试的一般流程； 4. 设计测试用例的常用方法； 5. 如果需要测试一个接口，去测试一个并发场景，应该如何去做； 6. 如何去设置多线程； 7. 10万级别的接口访问量，如何去模拟； 对零经验很友好！1.💰待遇 薪资是一天150，包晚饭，有双休，基本不加班，有茶水间小零食无限吃🍪，健身房、员工折扣店，晚上10点后打车免费，过节活动礼包🎁2.👗工作 服装运营岗，主要技能需要会用Excel、vlookup 工作内容有点像对接商家的客服👩🏻‍💻并且帮助你...

点赞评论收藏

分享

评论

1

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习没人带，苟住还是跑路？ #

7336次浏览 164人参与

# 大家实习都在做什么？ #

6452次浏览 61人参与

# 对2025年忏悔 #

1645次浏览 40人参与

# 我们是不是被“优绩主义”绑架了？ #

6900次浏览 238人参与

# 元旦假期你打算怎么过 #

5084次浏览 130人参与

# 电网笔面经互助 #

56798次浏览 470人参与

# 春招前还要继续实习吗？ #

1766次浏览 27人参与

# 毕业论文怎么查AI率 #

70133次浏览 1941人参与

# 非技术2024笔面经 #

451329次浏览 4918人参与

# 一人说一家双休的公司 #

4019次浏览 60人参与

# 你做过哪些dirty work #

25080次浏览 155人参与

# 参加过提前批的机械人，你们还参加秋招么 #

105497次浏览 1649人参与

# 牛客2025仙途报告 #

30471次浏览 392人参与

# 联影求职进展汇总 #

165141次浏览 832人参与

# 面试官问过你最刁钻的问题是什么？ #

4388次浏览 59人参与

# 你们的毕业论文什么进度了 #

1223964次浏览 9903人参与

# 硬件人秋招进展 #

262608次浏览 3963人参与

# 晒一晒你收到的礼盒 #

93234次浏览 446人参与

# 实习心态崩了 #

96851次浏览 495人参与

# 找工作，行业重要还是岗位重要？ #

88917次浏览 1777人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务