MySQL全文索引

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

一、全文索引基础定义

MySQL全文索引（Full-Text Index）是一种专门用于高效检索文本内容的索引类型，核心作用是对长文本字段进行关键词搜索，相比传统的LIKE模糊查询（需全表扫描），它通过预构建词索引实现快速匹配，同时支持相关性评分、复杂搜索模式等高级特性，大幅提升文本检索效率。

MySQL自4.0版本起引入全文索引功能，在5.6+版本中实现InnoDB引擎支持，8.0+版本进一步优化，现已支持中文分词、布尔模式、查询扩展等实用功能，适用于博客文章、电商商品描述、评论等长文本检索场景。

二、支持范围与核心限制

2.1 支持的存储引擎与字段类型

存储引擎：仅支持InnoDB和MyISAM，其中InnoDB（5.6+）支持事务和行级锁，是目前主流选择；MyISAM虽支持但不支持事务，适用于只读或低并发场景；MEMORY引擎不支持全文索引。
字段类型：仅可对CHAR、VARCHAR、TEXT及其变种字段创建全文索引，其他类型（如INT、DATE）无法创建。

2.2 关键限制

索引数量：MySQL 8.0+版本中，单个表最多可创建64个全文索引。
词长限制：InnoDB默认最小词长为3（通过innodb_ft_min_token_size控制），MyISAM默认最小词长为4（通过ft_min_word_len控制），短于该长度的词会被忽略（对中文无效，需配合分词插件）。
停用词：MySQL会忽略内置停用词表中的常见词（如英文的“the”“is”，中文的“的”“了”），避免无意义匹配，也可自定义停用词表减少冗余索引。
其他限制：不支持函数式表达式索引（如无法对UPPER(content)创建全文索引）；InnoDB分区表不支持全文索引；全文索引体积较大，维护成本高于普通索引，高写入场景可能影响性能。

三、全文索引的创建方法

全文索引可在表创建时定义，也可对已有表添加，支持单列索引和多列组合索引，以下是具体实操示例（以InnoDB引擎为例）。

3.1 创建表时定义全文索引

-- 单列全文索引
CREATE TABLE articles (
  id INT PRIMARY KEY AUTO_INCREMENT,
  title VARCHAR(255) NOT NULL,
  content TEXT,
  -- 对title字段创建全文索引
  FULLTEXT INDEX ft_title (title)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

-- 多列组合全文索引（推荐，可同时检索多个字段）
CREATE TABLE articles (
  id INT PRIMARY KEY AUTO_INCREMENT,
  title VARCHAR(255) NOT NULL,
  content TEXT,
  -- 对title和content字段创建组合全文索引
  FULLTEXT INDEX ft_combined (title, content)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

3.2 对已有表添加全文索引

-- 方式1：使用ALTER TABLE
ALTER TABLE articles ADD FULLTEXT INDEX ft_content (content);

-- 方式2：使用CREATE INDEX
CREATE FULLTEXT INDEX ft_combined (title, content) ON articles;

3.3 删除全文索引

-- 方式1：使用ALTER TABLE
ALTER TABLE articles DROP INDEX ft_title;

-- 方式2：使用DROP INDEX
DROP INDEX ft_combined ON articles;

四、全文搜索语法（MATCH...AGAINST）

全文索引必须通过MATCH(字段名) AGAINST(搜索词)语法使用，支持3种搜索模式，核心语法结构为：

SELECT 字段列表 FROM 表名 WHERE MATCH(索引字段) AGAINST(搜索词 搜索模式);

4.1 自然语言模式（默认模式）

最常用的搜索模式，将搜索词视为自然语言短语，自动计算每条记录的相关性分数（关键词出现频率、位置等），并按相关性降序排序，无需显式指定模式。

-- 搜索包含"MySQL"或"全文索引"的文章，按相关性排序
SELECT id, title, content, MATCH(title, content) AGAINST('MySQL 全文索引') AS relevance
FROM articles
WHERE MATCH(title, content) AGAINST('MySQL 全文索引');

-- 显式指定自然语言模式（与默认效果一致）
SELECT * FROM articles
WHERE MATCH(title, content) AGAINST('MySQL 全文索引' IN NATURAL LANGUAGE MODE);

4.2 布尔模式（精准控制搜索逻辑）

通过特殊运算符控制搜索条件，支持强制包含、排除、权重调整、通配符等，不返回相关性分数（除非显式计算），适用于精准匹配场景。常用运算符如下：

+	必须包含该词	+MySQL（必须包含MySQL）
-	必须不包含该词	-MongoDB（排除包含MongoDB的记录）
>	提高该词的相关性权重	>性能（提高“性能”关键词的权重）
<	降低该词的相关性权重	<旧版（降低“旧版”关键词的权重）
()	分组控制逻辑优先级	(MySQL OR MariaDB)（包含MySQL或MariaDB）
~	否定权重（降低相关性）	~实验性（包含“实验性”但降低相关性）
*	通配符（匹配词的前缀）	optimiz*（匹配optimize、optimization等）
""	精确匹配短语	"MySQL 性能优化"（精确匹配该短语）

-- 示例：必须包含"Java"，排除"MongoDB"，包含"并发"或"多线程"
SELECT * FROM articles
WHERE MATCH(title) AGAINST('+Java -MongoDB' IN BOOLEAN MODE)
  AND MATCH(content) AGAINST('+(并发 多线程)' IN BOOLEAN MODE);

4.3 查询扩展模式

基于自然语言模式的扩展，先通过关键词搜索出相关性最高的记录，再提取这些记录中的高频词作为补充关键词二次搜索，适用于“相关内容推荐”场景，需显式指定模式。

-- 先搜索"MySQL"，再扩展搜索相关词（如"数据库"、"索引"等）
SELECT * FROM articles
WHERE MATCH(title, content) AGAINST('MySQL' WITH QUERY EXPANSION);

五、中文全文搜索配置（ngram插件）

MySQL默认的全文索引基于空格和标点分词，对中文无效（中文无天然分隔符，会将整个句子视为一个词），解决方案是启用内置的ngram分词插件，通过滑动窗口将中文切分为N元语法（常用N=2，兼顾精度与性能）。

5.1 配置ngram插件（需重启MySQL）

修改MySQL配置文件（my.cnf或my.ini）：

[mysqld]
# 启用ngram插件（MySQL 5.7+内置，无需额外安装）
plugin-load-add=ngram.so
# 设置分词长度（建议2，中文常用双字分词）
ngram_token_size=2配置文件路径：Linux系统通常为/etc/mysql/mysql.conf.d/mysqld.cnf，Windows系统为my.ini。

重启MySQL服务：

 # Linux系统
sudo systemctl restart mysql

# Windows系统（服务管理器重启或命令行）
net stop mysql
net start mysql

验证插件加载：

SHOW PLUGINS LIKE 'ngram';
-- 若Status为ACTIVE，说明加载成功

5.2 创建支持中文的全文索引

创建索引时必须显式指定WITH PARSER ngram，否则仍使用默认分词器，中文搜索无效。

-- 创建支持中文的表和全文索引
CREATE TABLE articles_cn (
  id INT PRIMARY KEY AUTO_INCREMENT,
  title VARCHAR(255) NOT NULL,
  content TEXT,
  -- 指定ngram分词器
  FULLTEXT INDEX ft_cn_combined (title, content) WITH PARSER ngram
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

-- 插入测试数据
INSERT INTO articles_cn (title, content)
VALUES ('MySQL全文索引教程', '本文详细讲解MySQL全文索引的创建、使用及中文配置方法'),
       ('中文分词插件ngram', 'ngram是MySQL内置的中文分词插件，支持自定义分词长度');

-- 中文搜索示例（搜索包含"全文索引"的记录）
SELECT * FROM articles_cn
WHERE MATCH(title, content) AGAINST('全文索引' IN NATURAL LANGUAGE MODE);

六、全文索引的优化策略

批量插入优化：大数据量场景下，先将数据插入无全文索引的表，再创建全文索引，比插入带索引的表效率高得多。
分词长度调整：根据中文场景，将ngram_token_size设为2（双字）或3（三字），避免过短导致索引冗余，过长导致匹配精度下降。
停用词优化：自定义停用词表，移除业务场景中无意义的高频词（如“本文”“教程”），减少索引体积，提升检索速度。
查询优化：避免使用SELECT *，只查询需要的字段；使用布尔模式精准控制搜索条件，减少无关结果；定期执行ANALYZE TABLE优化索引统计信息。
场景适配：中小规模文本检索用MySQL全文索引即可，大规模、高并发场景（如千万级文章搜索）建议搭配Elasticsearch等专业搜索引擎。

七、常见问题与避坑要点

无法触发全文索引：必须使用MATCH...AGAINST语法，LIKE '%关键词%'、REGEXP等查询方式无法触发全文索引，会执行全表扫描。
中文搜索无效：未配置ngram插件，或创建索引时未指定WITH PARSER ngram，需重新配置插件并重建索引。
短词无法匹配：未调整最小词长参数，或中文分词长度设置不合理，需修改配置文件并重建索引。
索引维护性能差：高写入场景（如频繁INSERT/UPDATE）滥用全文索引，会导致性能下降，建议仅在核心检索字段创建，或采用定时更新索引的方式。

八、适用场景总结

适合场景

博客、论坛、文档库的文章内容关键词检索；
电商平台的商品名称、描述检索；
评论、留言等短文本的关键词筛选；
中小规模文本检索，无需复杂的分词和评分逻辑。

不适合场景

短文本精确匹配（如用户名、ID查询，适合普通B+树索引）；
复杂正则匹配（建议使用REGEXP函数）；
大规模、高并发的文本检索（建议使用专业搜索引擎）；
频繁更新的字段（全文索引维护成本高）。

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

MySQL存储引擎与索引文章被收录于专栏

还在纠结MySQL存储引擎怎么选？选错直接拉垮系统性能！MySQL插件式存储引擎架构适配多元业务：InnoDB（默认）支持事务、行级锁，扛高并发OLTP场景；MyISAM查询快无事务，适配读多写少场景；Memory读写极速但无持久化，适合临时缓存；Archive高压缩归档日志，CSV便捷跨系统交互，NDB支撑分布式集群。本期专栏拆解各引擎核心特性与选型逻辑，教你选对引擎，让数据库性能拉满！