首页 > 试题广场 >

Hadoop系统中实现Client端小文件合并的描述错误的是

[单选题]

Hadoop系统中实现Client端小文件合并的描述错误的是（）

Client端小文件合并的思路是现将小文件合并到大文件中，再把合并的大文件提交给MapReduce程序

理想的Client端小文件合并结果是，每一个上传的文件大小都要尽量的大越大越好

实现Client端小文件合并，需要实现一个BucketThread类，将小文件合并成HDFS块大小

BucketThread类是实现Runable接口的独立线程，通过提供copyMerge()方法，把小文件合并为一个大文件

查看正确选项

追风筝的人i

由于hadoop擅长存储大文件，因为大文件的元数据信息比较少，如果hadoop集群当中有大量的小文件，那么每个小文件都需要维护一份元数据信息，会大大的增加集群管理元数据的内存压力，所以在实际工作当中，如果有必要一定要将小文件合并成大文件进行一起处理
最大不能超过设置的文件大小

发表于 2022-03-22 11:19:19 回复(0)

BLUE2023

合并后的文件大小最好与hdfs块大小（hdfs.block.size）一致或者接近。

编辑于 2023-08-13 04:36:24 回复(0)

提交观点

问题信息

Hadoop

上传者：小小

难度：

2条回答 101收藏 465浏览

扫一扫，把题目装进口袋