读书频道 > 网络 > Splunk大数据分析
1.1 什么是大数据
2014-05-29 14:55:34     我来说两句 
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海  立即去当当网订购

无可否认,“大数据”已成为软硬件公司为促销产品而过度使用的术语。然而,在炒作的背后,确实蕴含着极其重要的技术趋势和极大的潜在商机。尽管人们经常把大数据与社会化媒体联系在一起,但我们将展开说明大数据远不止于此。在引入定义之前,让我们先来看一些关于大数据的事实。

回到2001年,来自麦塔集团(Meta Group,2005年被高德纳公司收购的一个IT研究公司)的Doug Laney在一篇研究论文中写道,电子商务大大加速了数据管理朝3个方面的发展:数据量(volume)、速率(velocity)和多样化(variety),它们被称为大数据的3个V。正如期望的那样,不少公司在其对大数据的定义中加入了更多的V。

当提到大数据时,数据量大是第一感觉,也就是大数据的“大”。一些专家认为大数据的起点为10亿兆字节(Petabyte,PB)。随着我们产生的数据越来越多,我们相信这个起点肯定会继续增加。然而,数据量本身并不是判断大数据的完美指标,而另外两个指标V对大数据的定义有更直接的影响。

速率指的是数据产生的速度或者数据传输的频率。想象一下从洛杉矶高速公路上的传感器传来的数据流,或者从某些机场用于扫描和处理人脸数据的摄像机传来的数据流。此外,还可想象一下流行的电子商务网站用户单击行为所触发的数据流。

多样化则是指信息系统产生的不同数据和文件类型。想象一下iTunes商店的音乐文件(大约有2800万首歌曲和超过300亿次下载),或者Netflix服务存储的电影(超过75 000部),或者纽约时报网站的文章(从1851年至今超过1300万篇),推文(每天超过5亿条推文),Foursquare用户的签到地理位置信息(每天超过500万条),以及所有包含内置计算机的系统产生的不同系统日志文件。当把这3个指标的V组合在一起时,你将开始对大数据有更完整的认识。

人们经常和大数据联系在一起的另一个特征是:数据是非结构化的。我们认为,不存在所谓的非结构化数据。我们的观点是:这个困惑来源于一个常见的认知,如果某种数据不符合预定义格式、模型或者结构,那么这种数据被视为非结构化数据。

电子邮件消息通常被当做非结构化数据的典型例子,而邮件的正文可被视为非结构化的,它部分遵循了一个良好定义的数据结构,RFC-2822规范,同时包含一组字段:From、To、Subject和Date。Twitter消息的结构也一样:消息主体或者叫推文,可被视为非结构化数据,也可被视为部分结构化的数据。

一般来说,自由文本可被视为非结构化的,因为正如之前所提到的,它不必遵循某个预定义模型。要对文本执行不同的操作,有很多种处理方法,且大多数方法都不需要预定格式。

关系数据库强制要求预定义的数据模型和模型的表中清晰定义的字段,目的是表达它们之间的关系。我们把它称为早期结构绑定(Early Structure Binding),而且在这种设计中,我们必须预先知道这些数据要回答哪些问题,这样才能设计相应的数据模式或结构来回答这些问题。

因为人们常常把大数据与富文本信息的社会化媒体流关联在一起,所以很容易理解为什么人们喜欢将“非结构化”与大数据联系在一起。在我们看来,“多结构化”也许是更准确的描述,因为大数据可以包含多种格式(3个V中的第三个V)。

把大数据局限在所谓的非结构化数据的范畴是不公平的。结构化数据同样也可以是大数据,特别是暂时保存在辅助存储设备中的数据,一旦装载到数据仓库进行分析即可发现它们所蕴含的巨大价值。这种数据经常被忽略的主要原因是它们的数据量,这类数据的量级通常超过了一般关系数据仓库的容量。

这里介绍一个叫高德纳的IT咨询公司在2012年提出的定义:“大数据就是高容量、高速度、和/或高多样化的信息资产,需要新的处理技术来增强决策能力、原理分析和流程优化。”我们喜欢这个定义,因为它不仅关注实际数据,而且注重大数据的处理方法。本书后面的章节将对这个定义进行更详细的介绍。

为了提高我们对事物的理解能力,我们还喜欢将大数据分类。在我们看来,大数据可分成两个大类:人类产生的数据足迹和机器自动生成的数据。随着互联网活动的持续增加,我们的数字足迹也持续增长。尽管我们每天与数字系统互动,但是大部分人没有意识到哪怕是琐碎的单击或交互都会留下很多信息。在了解互联网相关的统计数据前,我们必须承认,我们唯一熟悉的大数字是麦当劳的口号“亿万招待”以及偶尔曝光的美国政客谈论的万亿级的预算和赤字。为了给读者一个认识,下面展示一小部分互联网统计数据,用以说明网络活动所产生的数据量。我们很清楚,当我们写下这些数据的那一刻它们就已成为旧数据,但是它们的确存在:

到2013年2月为止,Facebook已经有超过10亿用户,其中每天活跃的用户有6.18亿。他们每天分享25亿条消息并且“喜欢”其他27亿条消息,每天产生超过500TB的新数据。

在2013年3月,面向商务的社交网站LinkedIn拥有超过2亿成员,并以每秒2个新成员的速度增长,在2012年其用户群共进行了57亿次职业相关的搜索。

照片是个很热门的主题,这是因为大部分人的手机都带有相机功能。这些照片的数量是惊人的。Instagram用户每天上传4000万张照片,每秒“喜欢”其中8500张照片,并每秒创建大约1000条评论。在Facebook上,上传照片的速率保持在每天3亿张,一个月将产生70PB数据。到2013年1月为止,Facebook已经存储了2400亿张照片。

Twitter有5亿用户,并以每天15万人的速度增长,其中有2亿活跃用户。在2012年10月,Twitter每天会产生5亿条推文。

Foursquare在2013年1月庆祝其签到数量达到30亿,每天大约有来自2500万名用户产生的500万次签到,这些用户创建了3000万条消息。

在博客方面,一个叫做WordPress的热门博客平台在2013年3月的报道称,该平台每个月产生将近4000万篇新博文和4200万条评论,并且每个月超过3.88亿用户查看超过36亿个页面。Tumblr,另外一个热门的博客平台,同样在2013年3月的报道称,其用户共创建近1亿个博客和超过440亿篇文章。在当时,Tumblr上通常一天内用户共发布7400万篇文章。

个性化网络电台Pandora报道称,在2012年他们的用户共收听了130亿小时的音乐,也就是大约总时长为13 700年时间的音乐内容。

与此类似,Netflix也宣称在2012年7月间他们的用户观看了超过10亿小时的视频,这相当于美国30%的网络流量。不仅如此,在2013年3月,YouTube也宣称说他们的视频每个月有超过40亿小时的观看量,并且每分钟上传72小时的视频。

在2013年3月,互联网上共有差不多1.45亿个互联网域名,其中大约1.08亿使用流行的顶级域名“.com”。互联网是一个非常活跃的领域,在3月21日,有167 698个域名被创建,有128 866个域名被删除,净增38 832个新域名。

在更平常的电子邮件世界,来自Mashable的Bob Al-Greene称,在2012年11月, 每天有超过1440亿封电子邮件被发送,其中大约61%来自企业。领先的电子邮件服务是Gmail,它拥有4.25亿活跃用户。

回顾这些统计信息,人类网络行为产生的数据足迹毫无疑问是巨大的。我们能快速从中看出3个V,为了让读者了解大数据如何影响经济,我们来分享一个来自基于用户评论的网站Yelp在2013年1月(当时他们有1亿个独立访客和超过100万条评论)发布的公告:“Yelp的企业主的调查报告称,平均而言,所有受调查类别中的顾客第一次访问Yelp时消费101.59美元。这些花费的来源可以从雇佣一个盖房顶的人到买一个新床垫,甚至可以在早晨买一杯咖啡。如果这1亿个独立访问者1月份在本地商家每人消费100美元,那么Yelp将会给本地商业带来超过100亿美元的影响。”

我们不会拿互联网环境下每天生活中的每一分钟或每一秒的统计数据来烦你。然而,举几个相关的大数据的例子有助于巩固这个概念。当我们访问Amazon网站或者在Netflix选择电影时,所得到的推荐基于大数据分析,沃尔玛也采用同样的方法了解一个区域的消费者偏好并根据此分析来安排库存。现在,你一定对人类数据足迹的大数据量有了很好的认识,并清楚认识到这些数据对经济和社会产生的影响。社会化媒体只是大数据的一部分。

大数据的第二个分类是机器数据。人类的数字化生活需要大量的防火墙、负载平衡器、路由器、转换器和电脑来支持。所有这些系统都会产生日志文件,从安全和审计的日志文件到描述网站访问者行为的网站日志文件,包括臭名昭著并被抛弃的购物车功能。

要计算出需要多少服务器才能支持人类产生的数字足迹几乎不可能,因为所有的公司都对其服务器数量保密。许多专家试图根据用电量(根据某些公司愿意公布的电源使用效率指标)对最有名的公司,例如Google、Facebook和Amazon,来计算它们拥有的服务器数量。利用这个方法,James Hamilton在2012年8月发表的一篇博文中推测,Facebook大约有180 900台服务器,Google有超过100万台服务器。其他专家表示,在2012年3月Amazon大约有5亿台服务器。2012年9月,《纽约时报》刊登了一篇煽动性质的文章,声称在美国有成千上万的数据中心,它们的耗电量大约占美国总耗电量的2%,但是这2%的耗电量中有90%或更多被浪费,因为很多服务器实际上没有使用。

我们只能猜测,全世界处于工作状态的服务器数量在百万台左右。当再加上所有其他的典型数据中心基础设施组件,如防火墙、负载平衡器、路由器交换机和其他也产生日志文件的组件,我们可以看到支撑我们数字足迹的基础设施所产生的日志格式的机器数据量是巨大的。

有趣的是,在不久前,大多数包含了机器数据的日志文件都大半被人们忽略。这些日志文件都是包含有用数据的金矿,因为它们包含对IT和商业活动的重要情报,因为这些日志文件忠实地记录了客户活动和习惯以及产品和服务的使用情况。上述日志文件使得公司的端到端业务变得透明化,可以用来改善客户服务,确保系统安全,也可以帮助系统设计满足法律法规的要求。更重要的是,日志文件可以帮助我们找到已经发生的问题,并且可以协助预测相同的问题未来将发生的时间。

到目前为止除了我们介绍的机器数据外,还有用于实时采集数据的传感器。大多数工业设备都包含能产生大量数据的内置传感器。例如,在燃气机中用于发电的一个叶片每天将产生520GB的数据,而在一个这样的燃气机中有20个叶片。一个跨大西洋的航班飞机能产生几个TB的数据,这些数据可以用来简化维护操作,提高安全性能,以及(对航空公司最重要的是)减少燃料消耗。

另一个有趣的例子是日产汽车的品牌Leaf,这是一种纯电动汽车。它有一个称为CARWINGS的系统,这个系统不仅提供传统的远程信息处理服务和一个智能手机的应用程序来控制汽车的所有功能,而且能无线传输车辆统计数据到中心服务器。每个Leaf所有者可以跟踪他们的驾驶效率,并且能和其他Leaf车主比较他们的汽车能耗数据。我们不知道日产公司从Leaf型号汽车上收集的详细信息是什么,也不清楚他们收集这些信息的用途,但是我们可以清楚地看到大数据的3个V在例子中的体现。

一般来说,传感器数据属于工业大数据类别,尽管最近“物联网”已经成为一个热门词汇,用来描述带传感器的设备构建的联网世界,世界上从电表到自动售货机有3亿多个联网设备。本书中将不会涉及这一类的大数据,但书中描述的方法和技术可以很容易地用于工业大数据分析中。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:目录
下一篇:1.2 非传统的数据处理技术
相关文章
图文推荐
1.2.2 包与帧
1.2.1 网络协议栈
云数据中心网络技术
3.4.6 文本约定
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站