Hadoop 概述


分类: 编程
评论: 0

Hadoop 概述



分类: 编程
评论: 0

概述

Hadoop 是分布式系统基础架构,HDFS 是其一个分布式文件系统(Hadoop Distributed File System, HDFS),HDFS 是 Apache Hadoop Core 项目的一部分。

Hadoop 组成

在 Hadoop 1.x 的版本中 MapReduce 同时负责计算和资源调度,耦合性大,在 Hadoop 2.x 版本中,进行了解耦,MapReduce 只负责计算,Yarn 负责资源调度。这样的解耦,带来的是,Yarn 除了可以调用 MapReduce 的计算框架的资源,同时可以使用其它计算框架。

HDFS

架构概述,有几个角色:

Yarn

任何来自 Client 请求都会经过 ResourceManager,然后由 ResourceManager 进行统一调度分配。来了请求会启动一个 ApplictionMaster,然后让 NodeManager 负责处理。而 NodeManager 会在自身节点上启动一个 Container 来处理这些任务,比如说 ApplicationMaster。

大数据生态体系

大数据生态体系

为什么需要分布式文件系统?

当今的信息时代中,人们可以获取的数据成指数倍地增长。单纯通过增加硬盘个数来扩展计算机文件系统的存储容量的方式,在容量大小、容量增长速度、数据备份、数据安全等方面都不适用,对于数据量很大的应用系统来说尤其如此。分布式文件系统可以有效解决数据的存储和管理难题。

什么是分布式文件系统?

分布式文件系统

分布式文件系统最重要的服务器包括:

特点

技术名词