SQL GROUP BY 数据分组

理解分组

一个列中为分类数据(有限重复,离散的)时,为了了解这些类别的数据表现情况,将这个列的数据分组,分组后表格的索引(可以理解为首列,多列分组为前几列)就变成了这些分组列,且不重复(或者组合不重复)。一些非分组列就需要进行聚合,使用计算方法如求和、求平均等方法进行计算,当然同一个列可以同时有多个不同的聚合方法。如图:

在Hive SQL中,GROUP BY子句用于根据一个或多个列对数据进行分组。在分组后,您可以对每个组应用聚合函数来计算统计指标。

下面是一个示例,展示如何在Hive SQL中使用GROUP BY进行数据分组:

SELECT column1, column2, COUNT(*)
FROM table_name
GROUP BY column1, column2;

在上述示例中,table_name 是要查询的表名,column1column2 是您希望根据其进行分组的列。COUNT(*) 是一个聚合函数,用于计算每个组中的记录数。

您还可以在GROUP BY子句中使用其他聚合函数,例如SUM、AVG、MAX、MIN等,来计算各组的总和、平均值、最大值或最小值。

如果您只想对一列进行分组,可以省略其他列,并仅在SELECT子句中包含分组列和相应的聚合函数。

SELECT column1, COUNT(*)
FROM table_name
GROUP BY column1;

这将按照 column1 分组,并计算每个组中的记录数。

使用GROUP BY时,还可以结合HAVING子句来筛选满足特定条件的分组。HAVING子句在GROUP BY之后执行,用于过滤聚合结果。

SELECT column1, COUNT(*)
FROM table_name
GROUP BY column1
HAVING COUNT(*) > 10;

以上示例将筛选出记录数大于10的分组。

通过使用GROUP BY子句,您可以根据不同的列对数据进行分组,并计算各个分组的统计指标,以便更好地理解和分析数据。

#sql#
Hadoop数据仓库 文章被收录于专栏

Hadoop数据仓库是建立在Hadoop生态系统基础上的大数据存储和处理解决方案。它可以用于将结构化、半结构化和非结构化的数据集中存储,并提供高性能的数据查询、分析和数据处理功能。

全部评论

相关推荐

点赞 评论 收藏
转发
点赞 评论 收藏
转发
点赞 1 评论
分享
牛客网
牛客企业服务