价格实惠的普通计算机经常满足不了应用程序的计算资源需求,很多企业的业务应用程序已经不再适合在单台廉价的计算机上运行。这时,一个简单昂贵的解决方案就是购买一些具有多CPU的高端服务器,这通常需要巨额资金。只要能买到最高端的服务器,这个解决方案就能够达到理想的效果,但预算往往是个大问题。另一个替代方案,就是搭建一个高可用的集群,这个集群经过专业的安装和精心的管理服务,使用起来就像一台计算机一样。很多高可用的集群都是企业专有的而且价格也十分贵。
为了获取所需的计算资源,一个更经济实惠的解决方案是云计算。面对大数据量的处理需求,一个常用的方法就是把它们分割成互不依赖的小份数据来分别计算处理,这就是所谓的单指令多数据流(single-instruation, multiple-data, SIMD)的数据计算模式。Hadoop为这样的云计算需求提供了一套开源的计算框架和一套分布式文件系统。
本书是一本利用Hadoop进行开发工作的实用指南。Hadoop项目由Apache Software Foundation来负责管理。本章会为大家讲解Hadoop的核心概念思想。为了后续章节更有效地学习,你需要安装并运行Hadoop。