读书频道 > 网络 > Splunk大数据分析
1.2 非传统的数据处理技术
2014-05-29 15:01:37     我来说两句 
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海  立即去当当网订购

大数据不仅仅是关于数据的,它还涉及能更好地处理大数据的3个指标(3个V)的非传统数据处理技术,因为这些技术可以增加数据的价值。传统的关系数据库有以下众所周知的特点:

事务处理是支持ACID属性的:

原子性(Atomicity):整个事务中的所有操作,要么全部完成,要么全部不完成,不可能停滞在中间某个环节。

一致性(Consistency):在任意事务操作结束后,系统将处于有效状态。

独立性(Isolation):创建结果的操作看起来像顺序执行的,每次一个。

持久性(Durability):所有对系统的更改都是持久的。

在同时处理成千上万用户请求的同时,响应时间通常在毫秒级范围。

数据量是TB级的。

通常使用SQL-92标准作为主要的编程语言。

一般来说,关系数据库不能很好地处理这3个V。正因为如此,人们发明了许多方法去解决这3个V固有的问题。这些方法将牺牲一个或多个ACID属性,有时候甚至全部都要放弃,以换取处理大容量、速率或多样化的可扩展性。这些非传统的方法也将放弃快速响应时间或处理大量并发用户的能力来支持解决3个V中的一个或多个。

一些人将这些非传统的数据处理方法称为NoSQL,并根据它们存储数据的方式来分类,如键–值对(key-value)存储和文档存储,而文档的定义随产品的不同而不同。根据不同的讨论对象,可能会有更多的分类。

开源的Hadoop可能是大数据世界里最知名的软件框架,但它绝不是唯一的。作为一个框架,它包含了许多旨在解决分布式数据存储、大数据检索和分析的相关问题的组件。它提供了两个基本功能来实现上述目的,这两个基本功能可运行在消费级服务器集群上,它们是:

一个称为HDFS的分布式文件系统,它不仅存储数据,而且复制数据,使得数据一直可用。

一个叫MapReduce的针对并行化问题的分布式处理系统,它采用两步走的方法。第一步(或称为Map),将一个问题细分成许多小的问题,然后发送到服务器群进行处理。第二步(或称为Reduce),将第一步产生的结果结合起来,得出原问题的最终结果。

Hadoop的一些其他的组件,一般称为Hadoop生态系统,包括Hive,一个基于Hadoop基本功能进行更高层次抽象而衍生的系统。Hive是一个数据仓库系统,在该系统中用户可以编写SQL-92标准的指令并自动转换为MapReduce任务。Pig是另一个与Hive有相似功能且基于Hadoop的高层级抽象系统,只不过它使用一种称为Pig Latin的更加面向数据流的编程语言。

HBase是Hadoop生态系统里的另一个组件,它实现了Google的分布式数据存储系统Bigtable。Bigtable是一个分布式的、持久化存储的多维度分类Map。Map中的元素是一个无法解释的字节数组,它们用行号、列号和时间戳索引。

Hadoop的生态系统中还有其他组件,但我们不会对它们深入展开。需要说明的是,除了官方的Apache项目之外,其他公司也提供Hadoop解决方案,如Cloudera和Hortonworks,它们提供主要针对集群管理的商用附加组件的开源实现。MapR是一家提供Hadoop的商业支持服务的公司,他们声称自己的产品性能更高。

大数据世界里的其他受欢迎的产品包括:

Cassandra,Apache开源项目之一,它是一个键–值对存储系统,提供基于消费级硬件的线性可扩展性和容错性。

DynamoDB,由Amazon Web Services提供,与Cassandra非常相似。

MongoDB,一个开源项目,是一个提供高性能、容错性和易扩展性的文档型数据库

CouchDB,另一个分布式和容错的开源文档型数据库

除了上述这些产品外,还有许多公司提供以不同方式处理3个V的解决方案。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.1 什么是大数据
下一篇:1.3 Splunk是什么
相关文章
图文推荐
1.2.2 包与帧
1.2.1 网络协议栈
云数据中心网络技术
3.4.6 文本约定
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站