03-14 17:51 门头沟学院 Java 发布于北京

关注

Group by条件优化

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

MySQL 中 Group by 是用于对查询结果按指定字段分组统计的核心语法，但在数据量较大、写法不规范或索引缺失时，容易出现 Using temporary（临时表）、Using filesort（文件排序）等性能瓶颈，导致查询耗时激增。本文结合MySQL执行机制和实战场景，从索引优化、SQL写法、参数配置、实战场景四个维度，提供可落地的Group by条件优化方案，兼顾性能提升与语法规范性。

一、核心优化前提：理解Group by执行机制

MySQL执行Group by的默认逻辑的是：先对全表进行扫描，创建临时表存储分组后的数据，再通过临时表匹配分组条件、执行聚合函数（如SUM、COUNT），最终返回结果。当无法利用索引时，这个过程会产生大量I/O和CPU消耗，尤其是大数据量场景下性能差异显著。

优化的核心目标是：避免临时表和文件排序的产生，让MySQL直接通过索引完成分组操作，最大限度减少数据扫描和中间计算开销。

二、核心优化方案（按优先级排序）

（一）索引优化：Group by优化的核心手段

索引是Group by优化的关键，MySQL仅能利用B树索引完成分组（哈希索引不支持），核心原则是：Group by的字段需与索引的最左前缀匹配，且索引需覆盖查询所需的字段（避免回表）。

1. 基础索引设计：Group by字段单独建索引（适用于简单分组）

当查询仅需按单个字段分组，且无复杂过滤条件时，直接对Group by字段建立普通索引，可避免全表扫描和临时表。

反例（无索引）：

-- 表：order_info（订单表），无索引，数据量100万+
SELECT order_type, COUNT(*) AS total FROM order_info GROUP BY order_type;
-- 执行计划会出现：Using temporary; Using filesort，耗时极长

优化后（建索引）：

-- 建立Group by字段的索引
CREATE INDEX idx_order_type ON order_info(order_type);
-- 再次执行查询，将直接利用索引分组，无临时表和文件排序
SELECT order_type, COUNT(*) AS total FROM order_info GROUP BY order_type;

2. 复合索引设计：适配“过滤+分组”场景（高频实战）

实际开发中，Group by常与Where过滤条件结合，此时需建立“Where过滤字段+Group by字段”的复合索引，遵循最左前缀原则，确保过滤和分组都能利用索引，同时避免回表。

核心逻辑：复合索引的顺序应为「过滤字段（Where）→ 分组字段（Group by）」，若查询中包含聚合函数所需字段，可将其加入索引形成覆盖索引，彻底避免回表。

反例（索引顺序错误/无覆盖）：

-- 查询：筛选2026年的订单，按订单类型分组，统计订单金额总和
SELECT order_type, SUM(order_amount) AS total_amount 
FROM order_info 
WHERE create_time > '2026-01-01' 
GROUP BY order_type;
-- 若索引为idx_order_type_create_time（order_type, create_time），顺序错误，无法利用过滤条件；
-- 若索引为idx_create_time（create_time），分组时仍需临时表

优化后（复合覆盖索引）：

-- 建立复合索引：过滤字段（create_time）→ 分组字段（order_type）→ 聚合所需字段（order_amount）
CREATE INDEX idx_create_time_type_amount ON order_info(create_time, order_type, order_amount);
-- 执行查询时，MySQL会先通过create_time过滤数据，再按order_type分组，通过索引直接获取order_amount计算总和，无临时表、无回表

3. 松散索引扫描与紧密索引扫描（进阶优化）

MySQL支持两种通过索引完成分组的方式，合理利用可进一步提升性能：

松散索引扫描：最高效的分组方式，无需扫描所有索引键，仅读取每个分组的少量数据（如分组的第一个键），适用于无Where范围条件、聚合函数仅为MIN()/MAX()、Group by字段为索引最左前缀的场景，执行计划中会显示Using index for group-by。
紧密索引扫描：需扫描所有符合Where条件的索引键，适用于有范围过滤条件的场景，虽效率低于松散扫描，但仍优于无索引的情况。

注意：若Group by字段不是索引最左前缀、包含非索引字段，或聚合函数包含MIN()/MAX()以外的类型（如SUM、COUNT），则无法使用松散索引扫描。

（二）SQL写法优化：避免冗余计算与无效操作

规范的SQL写法可减少MySQL的中间计算开销，避免不必要的临时表和排序，核心优化点如下：

1. 避免Group by中使用函数/表达式（防止索引失效）

若对Group by字段使用函数、运算或类型转换，会导致索引失效，触发临时表和文件排序，应尽量在应用层处理，或通过函数索引解决（MySQL 8.0+支持）。

反例：

-- 对Group by字段使用函数，索引失效
SELECT DATE(create_time) AS day, COUNT(*) AS total 
FROM order_info 
GROUP BY DATE(create_time);
-- 若有idx_create_time索引，无法被利用，触发Using temporary; Using filesort

优化后：

-- 方案1：应用层处理日期格式，直接传入格式化后的字段（推荐）
-- 方案2：MySQL 8.0+ 建立函数索引
CREATE INDEX idx_date_create_time ON order_info(DATE(create_time));
-- 方案3：新增冗余字段day_create（存储格式化后的日期），建立索引，避免函数操作

2. 合理使用HAVING替代Where，过滤时机前置

Where用于分组前过滤数据，HAVING用于分组后过滤数据；若过滤条件与分组字段无关，应优先使用Where，减少分组的数据量，降低临时表压力。

反例（用HAVING做前置过滤）：

-- 先分组，再过滤状态为有效（status=1）的分组，冗余计算
SELECT order_type, COUNT(*) AS total 
FROM order_info 
GROUP BY order_type 
HAVING status = 1;

优化后（用Where前置过滤）：

-- 先过滤有效订单，再分组，减少分组数据量
SELECT order_type, COUNT(*) AS total 
FROM order_info 
WHERE status = 1 
GROUP BY order_type;

3. 避免SELECT中包含非分组/非聚合字段（遵循ONLY_FULL_GROUP_BY）

MySQL 5.7+ 默认开启ONLY_FULL_GROUP_BY模式，禁止SELECT中出现未在Group by中声明、且不包含在聚合函数中的字段（非聚合字段）。即使关闭该模式，MySQL会随机返回非分组字段的值，不仅存在数据风险，还会增加临时表存储压力。

反例：

-- 非分组字段order_id未在Group by中，且无聚合函数，开启ONLY_FULL_GROUP_BY后会报错
SELECT order_type, order_id, COUNT(*) AS total 
FROM order_info 
GROUP BY order_type;

优化后：

-- 方案1：若需显示order_id，将其加入Group by（需确认业务逻辑允许）
SELECT order_type, order_id, COUNT(*) AS total 
FROM order_info 
GROUP BY order_type, order_id;
-- 方案2：若无需显示，删除非分组字段（推荐）
SELECT order_type, COUNT(*) AS total 
FROM order_info 
GROUP BY order_type;

4. 多子查询转Group by+LEFT JOIN（实战优化）

实际业务中，若存在“主表查询+子表多字段统计”的场景，多次子查询会重复扫描子表，性能极差，可将子表按分组字段汇总后，再与主表LEFT JOIN，减少子表扫描次数。

反例（多子查询重复扫描）：

-- 主表：运单表arr_air_waybill，子表：理货表hz_arr_tally（1对多）
SELECT
  aaw.waybill_code,
  -- 多次子查询，每条运单扫描1次子表
  (SELECT COUNT(*) FROM hz_arr_tally hat WHERE hat.waybill_code = aaw.waybill_code) AS tallyNumber,
  (SELECT SUM(pieces) FROM hz_arr_tally hat WHERE hat.waybill_code = aaw.waybill_code) AS tallyPieces
FROM arr_air_waybill aaw;

优化后（Group by+LEFT JOIN）：

-- 子表先分组汇总，仅扫描1次，再与主表关联
SELECT
  aaw.waybill_code,
  ht.tallyNumber,
  ht.tallyPieces
FROM arr_air_waybill aaw
LEFT JOIN (
  SELECT
    waybill_code,
    COUNT(*) AS tallyNumber,
    SUM(pieces) AS tallyPieces
  FROM hz_arr_tally
  GROUP BY waybill_code  -- 子表按业务主键分组，汇总所有统计字段
) ht ON ht.waybill_code = aaw.waybill_code;

（三）参数配置优化：减少临时表与排序开销

通过调整MySQL系统参数，可优化临时表和文件排序的性能，适用于无法通过索引和SQL写法完全避免临时表的场景（需结合服务器配置调整，避免资源浪费）。

1. 调整临时表相关参数

tmp_table_size：临时表最大内存大小，默认16M。若Group by产生的临时表较小，可适当调大（如32M、64M），让临时表优先在内存中存储，避免写入磁盘。
max_heap_table_size：内存临时表的最大大小，需与tmp_table_size保持一致，否则取两者较小值作为临时表内存上限。

配置示例（临时生效，重启MySQL失效）：

SET GLOBAL tmp_table_size = 67108864;  -- 64M
SET GLOBAL max_heap_table_size = 67108864;

2. 调整排序缓冲区参数

sort_buffer_size：每个连接的排序缓冲区大小，默认2M。若Group by触发文件排序，适当调大该参数（如4M、8M），让排序操作在内存中完成，避免磁盘I/O，但需注意：全局调大可能导致内存不足，建议在会话级别临时调整（仅针对慢查询会话）。

配置示例（会话级别，仅当前连接生效）：

SET SESSION sort_buffer_size = 4194304;  -- 4M

3. 关闭不必要的排序

MySQL默认会对Group by的结果按分组字段升序排序，若业务无需排序，可在Group by后加ORDER BY NULL，避免默认排序操作，减少性能开销。

-- 避免默认排序，提升性能
SELECT order_type, COUNT(*) AS total 
FROM order_info 
WHERE status = 1 
GROUP BY order_type 
ORDER BY NULL;

（四）实战场景优化：大数据量与多表关联分组

针对大数据量（百万级以上）、多表关联分组的场景，需结合索引、分表、数据预处理等方式，进一步提升性能。

1. 大数据量分组：分批次处理或分区表

若表数据量极大（千万级以上），即使有索引，Group by也可能耗时较长，可采用分批次处理（按时间、地区等维度拆分查询），或对表进行分区（如按create_time分区），让分组仅扫描目标分区的数据，减少扫描范围。

-- 分批次处理：按月份拆分查询，再汇总结果
SELECT order_type, SUM(total) AS total 
FROM (
  -- 第一批：1月份数据
  SELECT order_type, COUNT(*) AS total FROM order_info WHERE create_time BETWEEN '2026-01-01' AND '2026-01-31' GROUP BY order_type
  UNION ALL
  -- 第二批：2月份数据
  SELECT order_type, COUNT(*) AS total FROM order_info WHERE create_time BETWEEN '2026-02-01' AND '2026-02-28' GROUP BY order_type
) t 
GROUP BY order_type;

2. 多表关联分组：确保关联字段有索引，优先小表关联

多表关联（如JOIN）后分组，需确保关联字段（如外键）有索引，避免关联时全表扫描；同时遵循“小表驱动大表”的原则，减少关联次数，再进行分组操作。

-- 多表关联分组：用户表（小表）关联订单表（大表），按用户分组统计订单数
SELECT u.user_id, u.user_name, COUNT(o.order_id) AS order_count 
FROM user u
LEFT JOIN order_info o ON u.user_id = o.user_id  -- user_id为外键，两边均建索引
WHERE o.create_time > '2026-01-01'
GROUP BY u.user_id, u.user_name;  -- 关联表分组，需包含关联字段

三、优化验证：用EXPLAIN判断优化效果

优化后需通过EXPLAIN查看执行计划，重点关注以下字段，判断优化是否生效：

type：显示索引使用情况，优化后应至少为range，最优为ref或eq_ref（避免ALL全表扫描）。
Extra：优化目标是消除Using temporary和Using filesort；若出现Using index（覆盖索引）、Using index for group-by（松散索引扫描），说明优化生效。
key：显示查询使用的索引，需与优化时设计的索引一致。

四、常见误区与注意事项

误区1：盲目建索引。索引虽能提升分组性能，但会增加插入、更新、删除的开销，需结合业务读写比例，优先为高频分组查询建索引。
误区2：关闭ONLY_FULL_GROUP_BY规避报错。这种做法会导致数据返回异常，且可能增加临时表压力，正确做法是规范SELECT字段，避免非分组/非聚合字段。
误区3：忽视数据类型优化。Group by字段若为字符串类型，建议用数值类型替代（如用订单类型编码替代名称），减少排序和比较开销。
注意：MySQL 8.0+ 支持降序索引、函数索引等新特性，可结合版本特性优化，进一步提升分组性能。

五、总结

MySQL Group by的优化核心是“利用索引避免临时表和文件排序”，优先级为：索引优化 > SQL写法优化 > 参数配置优化 > 场景适配优化。实际开发中，需先通过EXPLAIN定位性能瓶颈，再结合业务场景（数据量、读写比例、关联关系），选择合适的优化方案，既保证查询性能，又兼顾语法规范性和可维护性。

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花

MySQL调优文章被收录于专栏

本专栏聚焦MySQL性能优化实战，从SQL编写、索引设计、参数配置到架构优化，系统讲解慢查询分析、高并发场景解决方案。用通俗语言拆解底层原理，搭配真实案例与可落地技巧，帮你快速定位瓶颈、提升查询效率与系统稳定性。无论开发、运维还是DBA，都能从零掌握MySQL调优核心能力，轻松应对生产环境性能问题。