我们正处在一个数据量爆炸增长的时代,也是一个越来越依靠数据进行决策的时代,对海量数据的挖掘分析也从抽样数据分析变成了全量数据分析。为此,业界涌现出了许多新技术,Apache Hadoop是其中当之无愧的王者。当前Hadoop已然发展为拥有HDFS、YARN、MapReduce、Pig、HCatalog、HBase等系统的较为完整的大数据系统生态圈,为大数据的开发利用提供了比较全面的解决方案。毫无疑问,Hadoop已成为大数据行业发展背后强劲的驱动力。
本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例贯穿全书,同时,又深入到系统实现源码,使读者做到知其然,更知其所以然。通过对本书的学习,读者可以从架构、开发、应用和运维等多方面全面地掌握Hadoop系统,从而成为名副其实的Hadoop专家。
我曾经拜读过本书英文版的第1版,机缘巧合,华章给了我翻译该书第2版的机会,感谢我的小伙伴百度公司的冯傲风同学与我并肩奋战,完成了本书的翻译;感谢吴怡编辑对本书认真负责的审校和中肯的修改建议,使得本书能够顺利地出版,她的认真和敬业令人钦佩!
最后还要感谢家人,只有他们的理解和支持,我才能每天抽出那么多时间来完成本书的翻译工作。
书中概念和术语颇多,有一些目前尚无固定中文译法,加上译者水平有限,译文中的不当之处在所难免,我们真诚地希望同行和读者们不吝赐教。
于博
2015年9月于北京