1.I/O操作中的数据检查 Apache的Hadoop官网上有一一个名为Sort900的具体的Hadoop配置实例,所谓Sort900就是在900台主机上对9TB的数据进行排序。一般而言,在Hadoop集群的实际应用中,主机的数目是很大的,Sort900 使用了900 台主机,而淘宝目前则使用了1100 台主机来存储他们的数据(据说计划扩充到1500台)。在这么多的主机同时运行时,你会发现主机损坏是非常常见的,这就会涉及很多程序上的预处理了。对于本章而言,就体现在Hadoop中进行数据完整性检查的重要性上。 校验和方式是检查数据完整性的重要方式。--般会通过对比新...