1、宏观:计算资源不足,其他优先级高的任务把资源池占满了。 微观:表数据问题,进了一些数据,造成了数据倾斜等问题。sql有缺陷,比如对分区限制有问题 2、(不确定考察点)limit取?不走mr。 3、大表join,如果表A有数据倾斜,把热点(key数量极大)数据拿出来,热点和非热点数据分别和B表关联。 key未知,我的想法是1用sample取样观察 2用analyze函数看元数据
6 1

相关推荐

牛客网
牛客企业服务