读书频道 > 网站 > 网页设计 > 深入理解Hadoop(原书第2版)
1.2.3 计算节点进行本地数据处理
15-11-27    下载编辑
收藏    我要投稿   

本文所属图书 > 深入理解Hadoop(原书第2版)

本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例立即去当当网订购

前文提到的大数据系统的两个特点,决定了分配到计算节点的数据要在计算节点本地处理。所有的大数据编程模型都是基于分布式和并行处理的。网络I/O比本地磁盘I/O慢了好几个数量级。数据被分发到各个计算节点,程序运行依赖库也移动到了数据所在节点,计算节点就地计算处理数据的条件完备了。

虽然典型的大数据处理系统都希望把数据处理过程放在拥有数据的节点本地完成,但并不是每次都能实现。大数据系统会把计算任务尽量调度到离数据最近的节点。本章节的后续部分会介绍一些内容,其中大数据系统中某些特定的处理任务需要跨节点获取数据。分布在各个计算节点的计算结果,最终要汇聚到一个计算节点(著名的MapReduce框架的Reduce阶段或其他海量数据并行化处理编程模型的类似阶段),起码这一步是需要跨节点获取数据的。但是,在大多数的用例场景下,数据结果汇集阶段的数据量,相对于计算节点本地处理的原始数据量来说是微不足道的。此过程的网络开销可以忽略不计(但也不总是这样)。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站