Hadoop 教程（一）hadoop介绍

总字数1.4k 预计阅读5分钟

1 hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它提供了一个海量数据存储和分析计算的能力。广义上来说Hadoop这个词代表了Hadoop生态圈。

Hadoop的核心是YARN,HDFS和Mapreduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示。

1636705530947

2. Hadoop的特点

扩容能力（Scalable）能可靠地（reliably）存储和处理千兆字节（PB）数据
成本低（Economical）可以通过普通机器组成的服务器集群来分发以及处理数据。这些服务器几圈总计可以达到千个节点。
高效率（Efficient）通过分发数据，hadoop 可以在数据所在的节点上并行的(parallel)处理它们，这使得处理非常快。
可靠性（Reliable） hadoop 能自动地维护数据的多份副本，并且在任务失败后能自动重新部署(redeploy)计算任务

3 Hadoop三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本最原始（最基础）的版本，对于入门学习最好。

Cloudera内部集成了很多大数据框架。对应产品CDH。

Hortonworks文档较好。对应产品HDP。后面被Cloudera收购

4 Hadoop组成

Hadoop的核心组件分为：HDFS（分布式文件系统）、MapRuduce（分布式运算编程框架）、YARN（运算资源调度系统）。

1636706148747

4.1 HDFS

整个Hadoop的体系结构主要是通过HDFS（Hadoop分布式文件系统）来实现对分布式存储的底层支持，并通过MR来实现对分布式并行任务处理的程序支持。HDFS是Hadoop体系中数据存储管理的基础。

一个HDFS集群是由一个NameNode和若干个DataNode组成的。NameNodee存储元数据，作为主服务器，管理文件系统命名空间和客户端对文件的访问操作。DataNode存储数据，DataNode管理存储的数据。HDFS支持文件形式的数据。

1636706441346

4.2 YARN架构

上面我们说了 Hadoop2.x 中增加了 Yarn(资源调度)，那资源调度是在调度什么呢？在计算机中资源就是CPU和内存，CPU和内存都是有上限的，所以需要分配给更需要的进程来使用。

1636706565758

ResourceManager（RM）就是资源管理者，外部的客户端提交作业请求都会先到 ResourceManager（RM），他代表了集群所有的资源，并监控 NodeManager、启动或监控ApplicationMaster。

NodeManager（NM）只管理一个节点的资源，处理来自ResourceManager（RM）的命令和来自ApplicationMaster的命令。

ApplicationMaster（AM）负责数据的切分、为应用程序申请资源分配内部任务和任务的监控容错。当一个任务提交到 ResourceManager（RM）时就会选择一个节点启动一个ApplicationMaster（AM）来负责这个任务的跟进，也就是对这个任务的一个负责人。也就是说有一个作业任务就会有对应的一个ApplicationMaster（AM）来跟进这个作业任务的执行和调度。

Container 是对资源的一个抽象封装，里面会包含内存、CPU、磁盘、网络等资源，NodeManager（NM）就是通过打开和关闭 Container 来调度资源的。

4.3 MapReduce架构概述

MapReduce是一种编程模型，用于大规模数据集的并行计算，需要将数据分配到大量的机器上计算，每台机器运行一个子计算任务，最后再合并每台机器运算结果并输出。 MapReduce 的思想就是『分而治之』.

MapReduce将计算过程分为两个阶段：Map和Reduce

1）Map阶段并行处理输入数据

2）Reduce阶段对Map结果进行汇总

1636706761153

5 大数据技术生态体系

1636706809649

图中涉及的技术名词解释如下：

1）Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库（MySql）间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2）Flume：Flume是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；

3）Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统；

4）Spark：是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5）Flink：Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6）Oozie：Oozie是一个管理Hdoop作业（job）的工作流程调度管理系统。

7）Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8）Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

9）ZooKeeper：它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

参考文献：

https://cloud.tencent.com/developer/article/1661405

本文标题:Hadoop 教程（一）hadoop介绍

文章作者:m01ly

发布时间:2020-11-12, 15:34:38

最后更新:2021-11-12, 16:52:00

原始链接:https://m01ly.github.io/2020/11/12/bigdata-hdfs/

许可协议: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。