读书频道 > 网站 > 网页设计 > 深入理解Hadoop(原书第2版)
1.5 我们能处理多大的数据量
15-11-29    下载编辑
收藏    我要投稿   

本文所属图书 > 深入理解Hadoop(原书第2版)

本书详细地讲述了Hadoop生态圈中最为重要的几个组件。不仅介绍了Hadoop涉及的分布式理论基础知识,还着重讲解Hadoop系统的工程实践应用。为了深入浅出地讲述Hadoop各个组件的运行机理,作者使用了贴切的实战用例立即去当当网订购

本章前述例子中,我们作了若干假设。比如,我们忽略了CPU时间。对于大多数的商业程序来说,计算的复杂性并不大。但是,随着计算量的提高,从实现的角度来看,各种情况的资源消耗都要考虑。举个例子,在数据挖掘中,会用到复杂的贝叶斯统计算法。这样的情况是计算密集型的应用。针对这样的问题,我们可以增加集群节点数量来提高性能,或者选用其他算法替代。

类似MapReduce这样的大数据计算编程范型可以被扩展到其他大数据计算技术中使用。比如,利用计算机的图形编程单元来进行计算机通用计算的技术(GPGPU)可以实现计算密集型应用程序的大规模并行计算。

我们还忽略了网络I/O开销。拥有50个节点的计算集群需要使用分布式文件系统,为了整合数据,这50台计算节点间的数据通信也是有开销的。在所有的大数据解决方案中,I/O开销是重中之重。在整个大数据处理流程过程中,这些开销消耗会导致串行依赖(Serial dependency)。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站