牛客901591050号

昨天 18:46 大数据开发工程师发布于上海

关注

Teradata中发生数据倾斜该如何解决？

Teradata的倾斜可以分为两类，解决方案也因类型而异：

持久性倾斜 (Data Skew)：数据在磁盘上的物理分布不均。根源通常是主索引（PI）选择不当。
运行时倾斜 (Runtime Skew)：查询执行过程中，用于计算的中间结果（Spool）分布不均。根源通常是连接（JOIN）或聚合（GROUP BY）的键值分布不均，或统计信息不准。

1. 设计层面：优化主索引（PI）

这是最根本、最有效的办法。如果表创建时主索引没选好，后续所有操作都可能带着“病根”。

更换为高基数、均匀分布的列：将主索引改为取值唯一或分布均匀的列，如订单ID、用户ID。切忌使用性别、状态等只有少量值的列作为主索引。
使用复合主索引 (Multi-Column PI)：如果单列无法保证均匀，可以用多列组合。例如，用(城市, 用户ID)代替单一的城市列，以打散数据。
考虑非唯一主索引 (NUPI)：如果业务上无法使用唯一主索引（UPI），NUPI也能通过合理的哈希计算较好地分布数据，但需注意处理重复值带来的额外开销。

2. 运行时层面：优化SQL与执行策略

当表结构因业务限制无法修改时，可以在查询执行时解决倾斜。

启用“倾斜值处理”特性：Teradata优化器能自动识别“热点值”。例如，一个VIP客户的订单量是普通用户的万倍，优化器会自动将这个VIP客户的订单单独处理（先聚合再合并），避免拖垮单个AMP。
手动拆分倾斜值 (针对特定版本)：在较老的Teradata版本（如14.0之前）中，如果自动处理失效，需要手动“分治”。将倾斜的数据（如NULL或高频值）单独JOIN，与非倾斜数据UNION ALL后再合并。
重分布 vs 复制：当大表与小表关联且小表的关联键是主索引时，优化器通常会将小表复制（Duplicate）到所有AMP，避免大表重分布（可能产生倾斜）。如果优化器选错了，可通过INSERT到NOPI（无主索引）表等方式手动干预执行计划。

3. 参数层面：使用全局空间会计 (GSA)

这是一种“治标”的防御手段，允许空间使用在节点间“借用”，避免因短时倾斜导致作业失败。

启用GSA：从Teradata 16.10 版本开始，推荐开启全局空间会计 (Global Space Accounting)。它允许某个数据量大的AMP临时借用其他空闲AMP的空间配额，防止因瞬时倾斜导致作业报错。
设定倾斜因子 (Skew Factor)：通过SKEW参数（0-100%）控制允许的空间“借用”程度，为倾斜数据提供缓冲。

4. 维护层面：保持统计信息新鲜

如果统计信息是过时的，优化器可能会“误判”数据分布，选错执行计划。

定期收集统计信息：在数据量发生重大变化后，必须对表执行COLLECT STATISTICS，尤其是针对JOIN和GROUP BY的列。

全部评论

推荐最新楼层

03-23 14:04

电子科技大学 Java

杭州数美科技 java 一面

🏢 3.6 - 杭州数美科技 - Java 面试状态：一面（3.20 HR 打电话通知面试通过） 🗣️ 1. 自我介绍 常规自我介绍。 🏥 2. PDAD 项目拷打  医患实时通信是如何实现的？（答：WebSocket） 在项目中负责哪一块？ 详细讲解负责的部分（医生工作台及病历系统）  难点与解决：病历系统的数据比较分散，存在各个表中。解决方案是为医生提供统一接口，封装病历 DTO，并在 Mapper 层进行处理。 追问：这跟传统的开发模式有什么区别？(没区别)   权限设置问题：如何区分医生、患者、管理员？（顺势转入场景题）  🌐 3. HTTP 项目拷打  HTTP 服务器是如何...

查看11道真题和解析

点赞评论收藏

分享

03-19 10:05

门头沟学院 C++

蚂蚁 C++开发一面

1. 自我介绍2. 讲一下你做过的项目，重点说说其中最难的技术点3. 我看你实习了一年了 怎么没留在上家公司4. 说一下线程、进程、协程的区别，如果放到你的项目里会怎么选答案：进程是资源隔离单位，线程是 CPU 调度单位，协程更像用户态轻量执行流。进程的隔离性最好，但切换和通信成本更高；线程共享地址空间，适合同一个服务内并行处理任务，但要处理锁竞争和共享数据一致性；协程切换开销小，特别适合高并发 I/O 等待场景。如果放到服务端项目里，我通常会让网络接入层偏事件驱动或协程化，避免大量阻塞线程；真正的 CPU 密集型计算，比如压缩、解析、聚合，会放到线程池里做。所以不是三选一，而是看场景组合使用...

C++ 常考面试题总结

点赞评论收藏

分享

03-04 22:09

已编辑

南昌大学 golang

29届混子简历求指点

大佬们帮我看看 👉👈

西北上单：29届？请你去三角洲猛攻

点赞评论收藏

分享

03-23 15:00

已编辑

厦门大学 Java

简历挂麻了，能给点建议吗

暑期实习投了十几天，能投的都投了，一个面试没有，pdd，快手，小米直接挂，不然一直都泡池子，简历还能怎么改进吗，后端还是太卷了

牛马蒋禾恺：这样的bg都简历挂吗，我也简历挂麻了

点赞评论收藏

分享

03-20 11:56

已编辑

一天一个AI项目｜多Agent助手实战

手把手带你拆解一个 GitHub 开源项目，用 LangGraph 从零搭建多 Agent 智能助手。Supervisor 架构 + 5 个专业子 Agent，代码不到 3000 行，适合写进简历的实战项目。    三、架构详解 用户消息 (Telegram / Slack) | v +---------------+ | Manager Agent | GPT-4o + SQLite记忆 +-------+-------+ | | SendMessage 工具（动态注入） | +-----+-----+-----+-----+ v v v v v 消息 日历 待办 协作 搜索 Agent A...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

阿里笔试考AI

热聊中

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

10328次浏览 152人参与

# 第一份工作应该只看薪资吗 #

252352次浏览 1916人参与

# 米连集团26产品管培生项目 #

10832次浏览 267人参与

# 春招至今，你的战绩如何？ #

33201次浏览 298人参与

# 什么专业适合考公 #

57223次浏览 290人参与

# 长得好看会提高面试通过率吗？ #

14946次浏览 152人参与

# AI面会问哪些问题？ #

6240次浏览 172人参与

# 蚂蚁求职进展汇总 #

157041次浏览 1253人参与

# 找实习记录 #

241226次浏览 1471人参与

# 春招你拿到offer了吗 #

815061次浏览 9895人参与

# 哪些公司校招卡第一学历 #

251037次浏览 861人参与

# 你做过最难的笔试是哪家公司 #

8828次浏览 70人参与

# 从事AI岗需要掌握哪些技术栈？ #

2348次浏览 65人参与

# 找AI工作可以去哪些公司？ #

2100次浏览 41人参与

# HR最不可信的一句话是__ #

2986次浏览 61人参与

# 一张图晒出你司的标语 #

1808次浏览 27人参与

# 沪漂/北漂你觉得哪个更苦？ #

5101次浏览 91人参与

# 毕业论文怎么查AI率 #

79686次浏览 1959人参与

# AI时代，哪个岗位还有“活路” #

5970次浏览 150人参与

# 简历第一个项目做什么 #

34489次浏览 550人参与

# 通信和硬件还有转码的必要吗 #

99068次浏览 633人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务