首页 > 试题广场 >

Hadoop系统中实现Client端小文件合并的描述错误的是

[单选题]
Hadoop系统中实现Client端小文件合并的描述错误的是()
  • Client端小文件合并的思路是现将小文件合并到大文件中,再把合并的大文件提交给MapReduce程序
  • 理想的Client端小文件合并结果是,每一个上传的文件大小都要尽量的大越大越好
  • 实现Client端小文件合并,需要实现一个BucketThread类,将小文件合并成HDFS块大小
  • BucketThread类是实现Runable接口的独立线程,通过提供copyMerge()方法,把小文件合并为一个大文件
由于hadoop擅长存储大文件,因为大文件的元数据信息比较少,如果hadoop集群当中有大量的小文件,那么每个小文件都需要维护一份元数据信息,会大大的增加集群管理元数据的内存压力,所以在实际工作当中,如果有必要一定要将小文件合并成大文件进行一起处理
最大不能超过设置的文件大小
发表于 2022-03-22 11:19:19 回复(0)
合并后的文件大小最好与hdfs块大小(hdfs.block.size)一致或者接近。
编辑于 2023-08-13 04:36:24 回复(0)