SQL GROUP BY 数据分组

理解分组

一个列中为分类数据(有限重复,离散的)时,为了了解这些类别的数据表现情况,将这个列的数据分组,分组后表格的索引(可以理解为首列,多列分组为前几列)就变成了这些分组列,且不重复(或者组合不重复)。一些非分组列就需要进行聚合,使用计算方法如求和、求平均等方法进行计算,当然同一个列可以同时有多个不同的聚合方法。如图:

在Hive SQL中,GROUP BY子句用于根据一个或多个列对数据进行分组。在分组后,您可以对每个组应用聚合函数来计算统计指标。

下面是一个示例,展示如何在Hive SQL中使用GROUP BY进行数据分组:

SELECT column1, column2, COUNT(*)
FROM table_name
GROUP BY column1, column2;

在上述示例中,table_name 是要查询的表名,column1column2 是您希望根据其进行分组的列。COUNT(*) 是一个聚合函数,用于计算每个组中的记录数。

您还可以在GROUP BY子句中使用其他聚合函数,例如SUM、AVG、MAX、MIN等,来计算各组的总和、平均值、最大值或最小值。

如果您只想对一列进行分组,可以省略其他列,并仅在SELECT子句中包含分组列和相应的聚合函数。

SELECT column1, COUNT(*)
FROM table_name
GROUP BY column1;

这将按照 column1 分组,并计算每个组中的记录数。

使用GROUP BY时,还可以结合HAVING子句来筛选满足特定条件的分组。HAVING子句在GROUP BY之后执行,用于过滤聚合结果。

SELECT column1, COUNT(*)
FROM table_name
GROUP BY column1
HAVING COUNT(*) > 10;

以上示例将筛选出记录数大于10的分组。

通过使用GROUP BY子句,您可以根据不同的列对数据进行分组,并计算各个分组的统计指标,以便更好地理解和分析数据。

#sql#
Hadoop数据仓库 文章被收录于专栏

Hadoop数据仓库是建立在Hadoop生态系统基础上的大数据存储和处理解决方案。它可以用于将结构化、半结构化和非结构化的数据集中存储,并提供高性能的数据查询、分析和数据处理功能。

全部评论

相关推荐

浩浩没烦恼:一二面加起来才一个小时? 我一面就一个小时多了
点赞 评论 收藏
分享
09-16 14:43
已编辑
江娱互动_研发_客户端开发
背景 双一流本硕 双非大圆满 只找游戏开发相关的岗位。 8 月初开始秋招到现在 投了四五十家吧, 目前两 offer, 不打算继续投了,把剩下的流程走完就开始沉淀了。目前两 offer 一个是网易互娱测开 base 广州,一个是江娱互动客户端开发 base 北京。应该确定网易这个了,说实话北京这个我挺想去的,这家的产品和工作氛围我了解了也不错,是那种踏实做事的,可惜我是广东人。网易的测开是调剂的二志愿,看了下有内部转岗机会,所以打算后面找个时间提前实习,沉淀下再做一个 demo 作品,写一些 shader,增强下图形学渲染的能力,再学点编辑器开发。看到时候内部转岗或者春招继续投客户端开发这样。后面还能再动摇的话应该就灵犀或者腾子了吧(假如这两家确认的是客户端开发岗的话)。-----------------------补下timeline网易互娱 测开 8.2笔试  8.21 技术面  8.29 leader&HRBP面(终面) 9.8 录用审核(之前一直显示面试中)9.14 oc江娱互动 客户端开发 8.29主程面 9.3 制作人面 9.5 BOSS面 9.11 口头OC 9.15 正式offer后面考虑了一下  感觉还是能走开发就开发吧,测开不太感兴趣,要内部活水转岗还要满1年才能申请。。
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务