首页 > 试题广场 >

下面选项中对 MapReduce 描述错误的是()

[单选题]
下面选项中对 MapReduce 描述错误的是()
  • 当运行 MapReudce 作业时,输入目录必须存在,并且要包含让 MapReduce 处理的文件,还要一个输出目录,必须在运行 MapReduce 作业时设置,该目录如果已经存在对任务也没有影响,MapReude 作业会自动先删除输出目录
  • MapReduce 作业中的 application master 负责协调运行 MapReudce 作业中的 map 和 reduce 任务,application master 和这些任务一样运行在 YARN 容器中
  • MapReduce 确保每个 reduce 的输入都是按键排序的,MapReuce 框架中将 map 输出排序后传给 reduce 的过程称为 shuffle
  • 每个 map 任务都有一个环形内存缓冲区用于存储任务输出,一旦缓冲区内容达到阈值,内存缓冲区中的部分数据会溢出到磁盘,如果在数据溢出期间,缓冲区数据存储达到上限,map 任务会被阻塞直到溢出数据写磁盘过程完成
答案:A 解析: - 选项A错误: MapReduce作业运行时,输出目录必须不存在。如果已存在,任务会失败,而非自动删除。用户需手动删除或设置覆盖选项(如 FileSystem.setOverwrite )。 - 选项B正确: ApplicationMaster是YARN中管理作业的核心组件,负责协调Map和Reduce任务,且所有任务均运行在YARN容器中。 - 选项C正确: Shuffle阶段包含排序和分区,确保每个Reduce的输入按键排序。 - 选项D正确: Map任务的环形缓冲区在溢出时若填满,会阻塞直到数据写入磁盘完成。
发表于 2025-03-15 09:40:17 回复(0)