在多节点集群安装模式(Multinode Node Cluster Installation)中,Hadoop系统安装在由若干机器组成的集群中。其安装过程比较复杂,一般由富有经验的Linux系统管理员来进行操作。从系统逻辑上看,其系统运行情
在伪分布式集群模式(Pseudo-Distributed Cluster)下,Hadoop系统以伪分布式的方式运行在一个服务器节点中,所有的守护进程分别运行在不同的Java进程中。这样的运行模式经常用来模拟一个集群环境。
单机模式(Stand-Alone Mode)是最简单的安装类型模式,这种模式最适合调试。在这样的模式中,Hadoop系统的所有程序运行在一个单独的JVM中。从系统性能的角度看,这种模式显然是性能最差的,但是在开发过程中是
尽管Hadoop系统的安装常常是富有经验的系统管理员的工作,并且Hadoop系统的Apache站点上也有详尽的安装说明,但是对于在多种平台上安装Hadoop系统有个基本的了解还是非常重要的,这有以下两个原因:要想对Hadoop
前面的章节介绍了大数据的价值,然后对Hadoop系统进行了总体介绍,Hadoop系统是业界最重要的大数据框架。本章我们会真正地使用Hadoop系统框架。本章将指导你如何搭建Hadoop系统开发环境,以及如何在你选择的操作
本章介绍了Hadoop系统的各种概念。从一个典型的单词计数程序示例开始,一步步地介绍了Hadoop系统的各种特性。介绍了Hadoop分布式文件系统(HDFS),介绍了Hadoop1 x系统中是如何通过作业跟踪器守护进程和任务跟踪
通过前面对HDFS的讲解,我们很清楚地知道在Hadoop1 x系统中,名称节点会引发系统单点故障。Hadoop1 x系统只有一个名称节点,如果运行名称节点服务的节点机器出现故障,那么整个集群将会处于不可用的状态,除非名
当一个用户向Hadoop2 x框架提交了一份作业,YARN框架后台处理该请求(如图2-7所示)。步骤如下:1)一个客户端提交作业程序。该应用程序的类型确定了,就决定了使用何种应用程序管理器。2)资源管理器协调资源,
应用程序管理器(Application Master)是老的MapReduce v1 框架和YARN之间的关键区别之处。应用程序管理器是一个特定的框架函数库(framework-specific library)实例。它同资源管理器协调沟通资源,并通过节
资源管理器的核心是一个调度器:当多个应用程序竞争使用集群资源的时候,它来负责资源的分配调度,确保集群资源的优化合理使用。资源管理器有一个插件化的调度器,该调度器按照程序队列和集群的处理能力,负责为
节点管理器(Node Manager)运行在集群中的一个节点上,集群中每个节点都会运行一个自己的节点管理器。它是作为一个从属服务(slave service):它接受来自另外一个称为资源管理器的组件的请求,然后分配容器给
容器(Container)是YARN框架中的计算单元。它是一个任务进行工作的单元子系统。也可以这么认为,YARN框架中的容器相当于MapReduce v1中的一个任务(task)执行器。集群节点与容器之间的关系是:一个节点可以运
MapReduce已经进行了全新升级,即Hadoop 2 0,升级后的版本经常被称为MapReduce 2 0(MR v2)或者YARN。本书中常常提到其版本号2 x,虽然发行版本小数点后面的数字有变化,但是系统架构或者其运行方式并不会发
作业跟踪器(JobTracker)守护进程负责启动和监控MapReduce作业。当一个客户端向Hadoop系统提交一个作业,作业的启动流程如图2-5所示。该过程的详细步骤如下:1)作业跟踪器接收到了作业请求。2)大多数的MapRed
任务跟踪器(TaskTracker)守护进程在集群中每台计算节点中运行,接收诸如Map、Reduce和Shuffle这些操作任务的请求。每个任务跟踪器都会分配一定的槽位数(a set of slots),其槽位数的数量一般与计算节点上
现在我们来讨论辅助名称节点在Hadoop系统中的角色。这个组件因为它不合适的名字而导致很多错误的理解。辅助名称节点不是用于进行故障切换的节点。通过前文,我们知道名称节点在内存中维护着所有的元数据。名称节
Hadoop分布式文件系统(HDFS)用于支持数据处理程序要处理的大文件。这样的程序在处理数据的时候,有一次写、多次读的特点。HDFS文件系统由以下几个守护进程协调地运行来提供服务:名称节点进程辅助名称节点进程数
本节内容会细致深入地讲解Hadoop系统的各个组成部分。我们先介绍构成Hadoop 1 x 系统的组件,再介绍构成Hadoop 2 x 系统的新组件。宏观上说,Hadoop 1 x系统有以下几个守护进程:名称节点(NameNode):维护
Hadoop系统支持MapReduce编程模型,这个编程模型由谷歌公司发明,该模型可以利用由大量商用服务器构成的大规模集群来解决处理千兆级数据量的问题。MapReduce模型有两个彼此独立的步骤,这两个步骤都是可以配置并
Hadoop是以谷歌在2004年发表的一篇关于MapReduce的论文为基础开发的。Hadoop项目开始于2005年,那个时候,Hadoop项目是开源的网页搜索引擎Nutch项目下的一个子项目。后来,Hadoop从Nutch项目中分离出来,并最终成