HDFS全称Hadoop Distributed File System,看名字就知道是Hadoop生态的一个组件,它是一个分布式文件系统。它的出现解决了独立机器存储大数据集的压力,它将数据集进行切分,存储在若干台计算机上。 HDFS 的特点与应用场景 适合存储大文件 HDFS 支持 GB 级别甚至 TB 级别的文件,它会把大文件切分成若干个块存储在不同的节点上,在进行大文件读写时采用并行的方式提高数据的吞吐量。 容错性高 HDFS有多副本机制,它会自动保存副本到不同的节点。即使有一台节点宕机了也不会丢失数据。 适用于流式的数据访问 HDFS 适用于批量数据的处理,不适合交互式处理...