首页 > 试题广场 >

(单选题)下列选项中,哪个选项是用于处理海量数据的并行编程模

[单选题]
(单选题)下列选项中,哪个选项是用于处理海量数据的并行编程模式和大规模数据集的并行运算的软件架构?
  • GFS
  • MapReduce
  • Chubby
  • BitTable
MapReduce是一种处理海量数据的并行编程模式,用于大规模数据集(通常大于1TB)的并行运算。
“Map(映射)”、“Reduce(化简)”的概念和主要思想,都是从函数式编程语言和矢量编程语言借鉴。
适合非结构化和结构化的海量数据的搜索、挖掘、分析与机器智能学习等。


MapReduce计算模型
分布式计算的瓶颈是网络带宽。“本地计算”是最有效的一种节约网络带宽的手段。


MapReduce的特点
1、输入的键值是不固定的,由分析人员选择
2、对于非结构化和半结构化数据,非常有效
3、适合于大规模数据的一次写入,多次查询
4、MapReduce其核心就是高速、流式读写操作

无共享

无共享结构让MapReduce程序员无需考虑系统的部分失效问题;
因为自身的系统实现,能够检测到失败的map或reduce任务;
并让正常的机器重新执行这些失败的任务;
因为各个任务之间彼此独立;
任务的执行顺序是无关紧要的;

Map函数——对一部分原始数据进行指定的操作。每个Map操作都针对不同的原始数据,因此Map与Map之间是互相独立的,这使得它们可以充分并行化。
Reduce操作——对每个Map所产生的一部分中间结果进行合并操作,每个Reduce所处理的Map中间结果是互不交叉的,所有Reduce产生的最终结果经过简单连接就形成了完整
发表于 2019-04-10 17:12:18 回复(0)
MapReduce 是 Hadoop 的核心计算框架,是用于大规模数据集(大于1TB)并行运算的编程模型,主要包括Map(映射)和Reduce(规约)两部分。当启动一个Mapreduce任务时,Map端会读取HDFS上的数据,将数据映射成所需要的键值对类型并传到Reduce端。Reduce端接收Map端传过来的键值对类型的数据,根据不同键进行分组,对每一组键相同的数据进行处理,得到新的键值对并输出到HDFS,这就是MapReduce的核心思想。
发表于 2019-04-10 20:48:32 回复(1)