大数据技术入门
上QQ阅读APP看书,第一时间看更新

第2章 大数据软件框架

这是一个大数据时代,而Hadoop就是为了大数据应运而生。Hadoop是Apache的子项目,是一个分布式系统基础架构,它主要是用于大数据的处理。比如:如果你要在一个50TB的巨型文件中查找内容,会出现什么情况?在传统的系统上,这将需要很长的时间,但是Hadoop在设计时就考虑到这些问题,采用分布式存储和并行执行机制。Hadoop所提供的分布式文件系统(HDFS)实现了大规模的存储(在所有计算节点上分布式存储50TB数据),这为整个集群带来了非常高的带宽,因此能大大提高效率。Hadoop可以让用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。对于大数据而言,Hadoop就是用大量的廉价机器组成的集群去执行大规模运算,这包括大规模的计算和大规模的存储。