我们运行这个MapReduce程序的方法就像上节内容中如何运行使用旧API编写的MapReduce程序一样。在集群模式下运行该MapReduce程序的命令如下:
因为无须HADOOP_CLASSPATH环境变量,所以命令行中就没有涉及。如前所述,JAR文件会发送到所有的数据节点,这些节点的本地classpath中已经配置为包含这个JAR文件。
<INPUT_PATH> 和 <OUTPUT_PATH>指向HDFS上的路径。Hadoop命令负责执行这些预备步骤,然后在集群中以分布式的模式运行这个作业。