价格实惠的普通计算机经常满足不了应用程序的计算资源需求,很多企业的业务应用程序已经不再适合在单台廉价的计算机上运行。这时,一个简单昂贵的解决方案就是购买一些具有多CPU的高端服务器,这通常需要巨额资金
大数据渐成主流,其背后的两大推动力就是开源的Hadoop系统和云计算时代的到来。两者的发展使得以较低成本引入大规模大数据处理方法来解决业务问题成为可能。Hadoop系统是所有大数据解决方案的核心。尽管其他如MP
在商业界,大数据和Hadoop都有很多应用案例。再从以下三个方面总结大数据的特征:数据量(Volume)处理速度(Velocity)数据多样性(Variety)数据量是指系统能够处理的数据量的大小。如果你们部门每天晚上都要在
就像光速被认为是人类在这世界上能达到的理论上的速度极值,Amdhal定律揭示了通过往集群增加更多计算节点的方法来提高集群性能的极限值。Amdhal定律的完整描述详见:http: en wikipedia org wiki Amdahl抯_law。
假设50个计算节点来处理200GB的数据,平均每个计算节点需要本地处理4GB的数据。每个节点读取这些数据要花费80秒(速率为每秒50MB)。无论我们的计算多快,这80秒是不能节省的。假设数据处理之后最终的结果数据集
本章前述例子中,我们作了若干假设。比如,我们忽略了CPU时间。对于大多数的商业程序来说,计算的复杂性并不大。但是,随着计算量的提高,从实现的角度来看,各种情况的资源消耗都要考虑。举个例子,在数据挖掘中
以大数据作为参照来理解事务概念的发展变化是非常重要的。这个问题的讨论会涉及相应的NoSQL数据库。Hadoop系统使用HBase来作为自己的NoSQL数据存储。你也可以使用Cassandra或者云计算提供商(如Amazon Dynamo)
整体同步并行(BSP)系统的运行过程跟MapReduce过程非常相似。与MapReduce程序在它的处理循环结束后即可终止不同的是,BSP系统程序执行由一系列的超步(processes)(这个与Map处理的处理过程类似)组成,这些超
MapReduce编程范型是本书所要讲述内容的核心基础重点。截至目前,MapReduce框架已被广泛的用于大数据的处理过程(four methods)。Hadoop系统对MapReduce框架的实现具有如下几个重要特征:使用商用级别的硬件。
从系统运行的角度来看,内存数据库系统类似于MPP系统。它们的不同之处在于,内存数据库系统的每个计算节点拥有巨大容量的内存,并且大部分数据会被预先加载到内存中。SAP 公司的HANA系统就是按照这个原则来运行
大规模并行处理(MPP)数据库系统的核心思想是把数据按照某一列或者某一组列的值,按照某种形式进行划分,以分别处理。举个例子,上文例子中计算2000年的各州总销售额,并按州排序,我们可以按照各个州来划分数据
大数据的编程模型主要有以下几种类型:大规模并行处理(Massively Parallel Processing,MPP)数据库系统:EMC公司的Greenplum系统和IBM公司的Netezza系统就是这样的系统。内存数据库系统:Oracle公司的Exalyt
假设我们要计算2000年美国各州的总销售量,并按州排序,销售数据已经随机分发到各个计算节点。利用大数据计算技术,计算这个总量要分成如下步骤:1)每个计算节点读取分发给自己的全部数据,然后过滤掉不是2000年
前文提到的大数据系统的两个特点,决定了分配到计算节点的数据要在计算节点本地处理。所有的大数据编程模型都是基于分布式和并行处理的。网络I O比本地磁盘I O慢了好几个数量级。数据被分发到各个计算节点,程序
前文提到的大数据系统的两个特点,决定了分配到计算节点的数据要在计算节点本地处理。所有的大数据编程模型都是基于分布式和并行处理的。网络I O比本地磁盘I O慢了好几个数量级。数据被分发到各个计算节点,程序
对于我们这些精通J2EE编程的人来说,三层架构思想深植脑海。在三层编程模型中,所有的数据会通过网络集中到一起,交由应用层来处理。我们由此形成了固有的观念,就是数据应该是分散的,而程序应该是集中的。大数
根据定义,大数据是无法仅靠单台计算机资源来处理的。大数据的一个特点就是使用商用服务器。一台典型的商用服务器拥有2TB至4TB的磁盘。因为大数据是指远远超出这个容量的数据集,所以还是要将数据分布在多个节点
上文中的例子我们作了诸多假设,要表明的核心问题是虽然我们可以很快地处理数据,但是从持久性的存储设备中读取的速度受到限制,这是整个数据处理流程上的关键瓶颈所在。相对于读写本地节点存储设备上的数据,通
就本书而言,大数据(Big Data)姑且定义为无法被符合服务等级协议(service level agreement,SLA)的单台计算机处理或(有些时候)存储的任何数据集。后续内容会有更精确的解释。理论上讲,单台计算机可以处
随着近20多年来计算技术的不断革新,企业积累了大量数据。数字传感器的进步使得通信系统越来越广泛的使用,尤其是移动平台和移动终端的飞速增长;系统运行产生的大量日志以及越来越多的企业采用无纸化办公的工作