能够以本地模式运行Hadoop程序是非常重要的,这样我们就可以对程序做单元测试以便快速地进行开发工作。为了这个目的,要做的唯一工作就是正确地配置HADOOP_HOME环境变量,而且{HADOOP_HOME}/bin要包含在PATH变量中。对于Linux系统来说,这两个变量配置正确就足够了。
但是,在Windows环境中,Hadoop程序的整个构建过程中所需要应用的动态链接库(DLL)都要在本机配置好。这些动态链接库文件并不包含在从Apache网站下载的tar压缩文件中。在Windows平台上安装Hadoop系统的本地模式或者伪分布式模式的具体步骤,详见附录A的讲解。
如果你使用上文中提到的虚拟机,以本地模式运行Hadoop程序所必需的东西都已经预先安装配置好了。
假设准备工作都已经做好,下面介绍的示例程序会像你使用的集成开发环境(IDE)中的任何其他Java程序一样运行。
本书中,以本地模式运行的所有作业的输入数据都在文件夹
${project.basedir}/src/main/resources/input中。${project.basedir}目录是项目的根目录。作为WordCount程序的文本示例输入数据,存放在${project.basedir}/src/main/resources/input目录中的wordcount子目录下。