2023-03-15 10:23 湖南科技大学后端工程师发布于湖南

关注

两个事务并发写，能保证数据唯一吗？

我先来解释下标题讲的是个啥。

我们假设有这么一个用户注册的场景。用户并发请求注册新用户。

你有一张数据库表，也就是下面的user表。

产品经理要求用户和用户之间，电话号码不能重复，为了保证这一点。我们想到了先查一下数据库，再判断一下，如果存在，就退出，否则插入一条数据。类似下面这样的伪代码。

select user where phone_no =2;  // 查询sql
if (user 存在) {
		return 
} else {
  insert user;   // 插入sql
}
复制代码

但这是两条sql语句，先执行查询sql，判断后再决定要不要执行插入sql。每次用户注册的时候都会执行这么一段逻辑。

那如果，此时有多个用户在做操作，就会并发执行这段逻辑。

如果都并发执行，第一条sql语句执行完之后，都会发现没有用户存在。此时都执行了插入，这样就出现了两条一样的数据才对。

所以，有人就想了，这两条sql语句逻辑应该是一个整体，不应该拆开，于是就想到了事务，通过事务把这两个sql作为一个整体，要么一起执行，要么都回滚。

这正是数据库ACID里的A（Atomicity），原子性的完美体现啊。

伪代码类似下面这样。

begin;
select user where phone_no =2;  // 查询sql
if (user 存在) {
		return 
} else {
  insert user;   // 插入sql
}
commit;
复制代码

那么问题来了，这段逻辑，并发执行，能保证数据唯一？

当然是不能。

事务內的多条sql语句，确实是原子的，要么一起成功，要么一起失败，这没错，但跟这个场景没什么太大关系。事务是并发执行的，第一个事务执行查询用户，并不会阻塞另一个事务查询用户，所以都有可能查到用户不存在，此时两个事务逻辑都判断为用户不存在，然后插入数据库。事务内两条sql都执行成功了，于是就插入了两条一样的数据。

怎么保证数据唯一？

那么我们接下来聊聊，怎么保证上面这种场景下，插入的数据是唯一的。方法有很多种，但我们今天只讨论mysql内部的做法，不考虑其他外部中间件（比如redis分布式锁这些）。

唯一索引

通过下面的命令，可以为数据库user表的phone_no字段加入唯一索引。

ALTER TABLE `user` ADD unique(`phone_no`);
复制代码

我们执行一条写操作时，比如下面这句，

INSERT INTO `user` (`user_name`, `phone_no`) VALUES('小红', 2);
复制代码

第一次会插入成功，第二次再执行插入，则会出现报错。

Duplicate entry '2' for key 'phone_no'
复制代码

含义是phone_no这个字段是唯一的，加两次phone_no=2会导致重复。

于是乎回到我们文章开头的场景里，就完美解决了重复插入的问题了。

那么问题来了。

为什么唯一索引能保证数据唯一？

我们看看一句写操作，会经历什么。

首先，mysql作为一个数据库，内部主要分为两层，一层是server层，一层是存储引擎层（一般是innodb）。

server层主要管的是数据库链接，权限校验，以及sql语句校验和优化之类的工作。请求打到存储引擎层，才是真正的查询和更新数据的操作。

大家都知道数据库是持久化存储，且最后都是把数据存到磁盘上的。

那数据库读写是直接读写磁盘数据吗？

不是，如果直接读写磁盘的话，那就太慢了，为了提升速度。

它在磁盘前面加了一层内存，叫buffer pool。它里面有很多细节，但最主要的就是个双向链表，里面放的是一个个数据页，每个数据页的大小默认是 16kb，数据页里面放的就是磁盘的数据。

于是有了这层buffer pool内存，mysql的读和写操作都可以先操作这部分内存，如果想要读写的数据页不在buffer pool里，再跑到磁盘里去捞。由于读写内存的速度比读写磁盘快得多。

所以引擎读写都快多了。

但这还不够，很多时候写操作，我的诉求就是把xx更新为xx，或插入xx，数据库光知道这一点就够了，我根本不需要知道数据页原来长什么样子。

有点抽象？举个例子吧。

比方说我想要把id=1的这条数据的phone_no字段更新为100，数据库知道这一点就够了，至于这条数据原来phone_no究竟是等于20，还是30，这根本不重要，反正最后都会变成我想要的phone_no=100。

也就是说，如果有那么一块内存，记录下我准备把数据改成什么样子，然后后续异步慢慢更新到磁盘数据上。那我甚至到不需要在一开始就把这块数据从磁盘读到buffer pool中，按照这个思路，change buffer就来了。

于是乎，写加了普通索引的数据，它只要把想要写的内容写到change buffer上，就立马结束返回了。后面innodb引擎拿着这个change buffer，再异步读入磁盘数据到内存，将change buffer的数据修改到数据页中，再写回磁盘，这速度就上来了，秒啊。

但这个change buffer，放在唯一索引这里就不管用了，毕竟，它得保证数据真的只有一条，那就得去看下数据库里，是不是真的有这条数据。

所以，对于insert场景，普通索引把需求扔到change buffer就完事返回了，而唯一索引需要真的把数据从磁盘读到内存来，看下是不是有重复的，没重复的再插入数据。

这唯一索引，在性能上就输了一截了。

所以回到唯一索引为什么能保证数据唯一的问题上，一句话概括就是，唯一索引会绕过change buffer，确保把磁盘数据读到内存后再判断数据是否存在，不存在才能插入数据，否则报错，以此来保证数据是唯一的。

总结

加唯一索引可以保证数据并发写入时数据唯一，而且最省事省心。
数据库通过引入一层buffer pool内存来提升读写速度，普通索引可以利用change buffer提高数据插入的性能。
唯一索引会绕过change buffer，确保把磁盘数据读到内存后再判断数据是否存在，不存在才能插入数据，否则报错，以此来保证数据是唯一的。

给大家留个问题呗，前面也提到了，innodb中，利用了change buffer，为普通索引做了加速。有没有哪些场景下，change buffer不仅不能给普通索引加速，还起到反作用的呢？

最后

大家也别笑，文章开头提到的通过开事务来保证数据唯一性的错误操作，其实很容易犯，而且我曾经也遇到过不止一次这样的事情。

做这个操作的人，还会信誓旦旦，言之凿凿的说出他的理解，在我解释了几遍发现无果之后，我选择低头假装思考，然后说："你说的有点道理，我再回去好好想想"，然后默默的为数据表加上唯一索引......

我相信对方肯定已经理解了。那一刻，我感觉我写的不是代码，我写的是人情世故。

#如果可以选，你最想从事什么工作##你觉得今年春招回暖了吗##我想象的工作vs实际工作#

全部评论

推荐最新楼层

mm豆

兰州交通大学前端工程师

有趣有趣😂谢谢分享

点赞回复分享

发布于 2023-03-17 14:00 甘肃

取名重复了

杭州电子科技大学前端工程师

最后一句最经典

点赞回复分享

发布于 2023-03-17 13:45 浙江

01-20 16:11

牛客_社区内容运营

uu们，在AI面试时穿睡衣真的好嘛？！

也是没想到AI面试这个环节，我居然想把这个事提出来说说。起因也是在某一天，我一怒之下打开了20个AI面试链接，逐个看大家的回答，没想到让我印象深刻的不是谁答的好，而是穿睡衣面试的比例这么高！20个画面里至少有5-6个同学穿着睡衣面的😄我看见了各种款式的睡衣，什么法兰绒的、条纹的、卡通图案、小豹纹的……emmm……作为企业视角，对于AI面试的看法就是：它一定会逐渐替代人面（初面）因为更加公平和客观，所以你们未来一定会收到更多的AI面，还是希望大家要早点认真对待，先人一步，才能抓住更多的机会啊！

AI时代，哪些岗位最容易...

点赞评论收藏

01-28 22:35

山东大学嵌入式软件工程师

就算做开发用AI工具，面试也逃不掉八股和手撕

还记得 2022 年，正好是我研究生入学的年份。那一年有几件事，后来回头看，全是时代拐点：疫情突然放开，所有人几乎在同一时间“阳”了一遍；ChatGPT发布，我想注册个账号，官网排队、封号、收不到验证码，最后还是去闲鱼花钱找人代注册；GitHub、微软和OpenAI一起推了个叫Copilot的玩意，定价10美元一个月，说是能“辅助写代码”，我心想ntnd能写代码，那我以后干啥，至少在我身边，没有一个人真的在用。那会儿的大模型，更像是个玩具，你能感觉到它很聪明，但没人真的相信它能走进实际开发。大家的共识很简单：写代码这事儿，还是得靠咱老百姓。到了 2023 年，气氛开始有点不一样了。我几个师兄在...

小型域名服务器：我感觉其实道理很简单，计算器已经问世几十年了，速度和正确率早已经让人类望尘莫及了，但是人不能因为有了计算器就不会算数了

SAGIMA牛马咖啡

点赞评论收藏

01-27 22:24

复旦大学 Java

划一下暑期实习笔试题考点

动态规划 单调栈 数论 几何 乘法逆元 大数 模拟 差分 正难则反 搜索DFS BFS 多源搜索 二分答案这些都会考，其中动态规划不会像平常的手撕那么简单，一般来说还会扩展到概率DP 插头DP之类

点赞评论收藏

01-22 17:07

天津医科大学 Java

求大佬帮忙看看简历怎么改

一个面试都找不到 感觉自己是废物对不起好多人 唉

点赞评论收藏

01-23 09:22

已编辑

东北大学 Java

人生第一次面试-阶跃星辰

贡献第一个面经 也是大凉经 自我剖析 实习 项目 八股 掌握程度还是太浅 我已经记不清说了多少“不太记得” “有点忘了” “不知道”无手撕 面试官很好 有的问题还告诉我答案了 还涨知识了家人们 redis单个QPS最高能顶住2w多实习：kafka数据怎么推送来的使用的拒绝策略是abort直接拒绝 拒绝抛的异常实在哪里看 监控器还是日志， 日志里是怎么看 丢失数据的话怎么处理 有什么影响线程池优化为什么选择扩大核心线程数和最大线程池 初始设置的线程数的设置有什么依据吗 扩大任务队列不行嘛项目：点评没问另一个项目问的：为什么设计多级缓存 去掉多级缓存就用redis行不行 没回答上 被面试官评价为为了设计而设计 还问redis qps最高支持多少用到了jwt 问：签名 和 加密 的区别八股：ArrayList LinkedList区别 底层结构hashmap 和 concurrenthashmaphashmap为什么要引进红黑树Spring IOC 和 AOPspring bean作用域Synchronized 和reentrantlock线程运行状态JVM结构堆 栈 计数器内等存储内容垃圾回收器重载和重写== equals  equals比较值是怎么实现的mysql事务 acidmysql默认隔离级别事务隔离级别innodb 和 myisam区别 除了这两个还有其他的嘛为什么会回表讲讲索引最左匹配select * from... where a = .. ,b = .. , ... 这时候还会用到联合索引吗三握四挥tcp和http区别联系http和https区别智力题：64匹马 8个赛道 选跑最快的4匹马 最少需要多少次

查看29道真题和解析

点赞评论收藏

招聘动态

搜狐畅游

26届春招火热进行中

莉莉丝

2026春季校园招聘

招商银行·招银网络科技

2026届校园招聘

麦吉太文

2026校园招聘

神州信息

2026届校园招聘

广发证券Fintech

2026校园招聘

小米集团

2026届春季校园招聘

翼支付

2026届春季校园招聘

厦门银行

2026届春季校园招聘

联想

26届补录&27届暑期实习

全站热榜

创作者周榜

正在热议

# 面试官最爱问的 AI 问题是...... #

18492次浏览 620人参与

# 把自己当AI，现在最消耗你token的问题是什么？ #

# 正在春招的你，也参与了去年秋招吗？ #