Hadoop大数据实战权威指南(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.6 本章小结

本章介绍了大数据系统涉及的关键技术,主要包括数据采集与生成、数据分布式存储、分布式计算框架、数据分析与挖掘平台和工具。

(1)数据来源:例如,银行大数据系统的数据来源包括银行内部业务系统产生的结构化数据和非结构化数据,以及银行外部的海量数据。

(2)数据采集与生成:主要介绍了业务系统的结构化数据到大数据平台(以Hadoop为核心)的导入工具(Sqoop)、日志数据的采集与导入工具Flume、数据分发工具Kafka。

(3)数据存储基本概念与海量数据分布式存储技术:介绍了列存储方式、KV存储与NoSQL数据库等基本概念;介绍了分布式文件存储HDFS和分布式内存文件存储Tachyon,以及数据库HBase和数据仓库Hive。

(4)分布式计算框架:主要介绍了离线计算框架MapReduce和Yarn,对其中的架构和原理进行了深入介绍,并详细介绍了Spark和Flink。同时,本章还详细介绍了实时流计算平台Storm和Spark Streaming,对其架构、实现机制与适用环境等进行了深入的分析。

(5)数据分析与挖掘平台和工具:详细介绍了数据挖掘与分析的工具,对数据挖掘的常用工具进行了分类。

(6)本章最后简要介绍了机器学习及Mahout、Spark MLlib算法库。

本章主要从各组件的构成、原理、实现机制和适用条件等方面进行了阐述和分析,以帮助读者从整体上对大数据架构中的各个组件有基本的了解。后续各章将帮助读者深入了解主要组件的安装、配置和应用等。