读书频道 > 网站 > 网页设计 > 深入理解Hadoop(原书第2版)
3.4.4 在集群模式下运行单词计数程序
15-11-29    下载编辑
收藏    我要投稿   

本文所属图书 > 深入理解Hadoop(原书第2版)

本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例立即去当当网订购

你可以在集群模式(或者伪分布式模式)下运行MapReduce作业。在集群模式下运行作业与在本地模式下运行有以下两点不同:

运行Map和Reduce任务的节点往往与提交作业的客户端节点不是同一个节点。

Map和Reduce任务都在各自的JVM中运行。

在集群模式下运行WordCount程序的第一步是把程序的类文件打包成一个JAR文件。程序用以下方法提交到集群执行:


 

尽管在我们的客户端程序中并没有使用一些需要特殊指定的函数库,但是我们还是使用了下面的方法,该方法可以使程序访问那些指定的函数库:


 

Hadoop命令使用HADOOP_CLASSPATH环境变量,用于在客户端程序提交运行之前配置客户端节点的CLASSPATH环境变量。

Hadoop命令还负责把prohadoop-0.0.1-SNAPSHOT.jar文件发送到远程节点,并确保准备运行Mapper和Reducer实例的节点中已经配置好CLASSPATH环境变量。这个正是第1章中提到的把程序移动到数据附近的例子。

<INPUT_PATH> 和 <OUTPUT_PATH>指向HDFS上的文件夹。前者指向的文件夹中包含了Mapper实例要读取的输入文件。后者指向的文件夹是Reducer实例执行结果输出的文件夹。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站