简介
Hadoop 是一个分布式计算开源框架,其提供一个分布式文件系统子项目(HDFS)和支持 MapReduce 分布式计算的软件架构。
在有了大量数据之后,那么该如何进行存储和分析这些数据呢?Hadoop 需要解决的问题如下:
- 硬件故障问题。一旦使用磁盘存储数据,就会遇到磁盘故障;但是为了避免数据丢失,最常见的做法就是复制(
replication);系统保存数据的副本(replica),一旦硬件系统出现故障,就立即使用另外保存的副本。 - 以某种方式结合大部分数据来共同完成分析。各种分布式系统允许不同来源的数据进行分析,但其数据的正确性是无法保证的。因此
MapReduce提出了一个编程模型,该模型抽象出这些硬盘读/写问题并将其作为对一个数据集(由键值对组成)的计算。