八斗mr后续
八斗大数据map reduce后续实践内容
全局排序
命令行模拟
cat a.txt b.txt | python map_sort.py | python red_sort.py
要求reduce_num=1 自然保证全局排序
map reduce按照字符排序
那么多个reduce_num怎么保证全局排序呢?
key = aaa bbb
partition:aaa
value = ccc
sort bbb
有点类似二次排序的概念,hadoop保证分区内有序,仅此而已
全局排序
命令行模拟
cat a.txt b.txt | python map_sort.py | python red_sort.py
要求reduce_num=1 自然保证全局排序
map reduce按照字符排序
那么多个reduce_num怎么保证全局排序呢?
key = aaa bbb
partition:aaa
value = ccc
sort bbb
有点类似二次排序的概念,hadoop保证分区内有序,仅此而已
相关推荐