读书频道 > 网络 > Splunk大数据分析
3.2 搜索和分析索引数据
2014-05-29 16:42:27     我来说两句 
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海  立即去当当网订购

搜索和分析机器或日志数据有助于我们理解应用程序、系统、Web服务器、负载均衡器和防火墙是如何工作的。同样,这些信息可以帮助我们更好地调试、分析根本原因以及更深入地了解外部或内部的用户使用和购买行为模式。通过分析机器数据,企业开始提出之前从未思考过的问题,并找出IT基础设施的运行情况。

我们将使用MyGizmoStore.com所产生的样本数据来看看能否解答一些典型的IT企业在运营他们的网站或应用程序的过程中所遇到的问题。首先,我们可以从一些简单的搜索命令开始,看看字段名能否正确地与表3-1的信息保持一致。在Splunk的搜索栏中输入“sourcetype=access_combined_wcookie”后,就能看到如图3-1所示的结果,共获得 8688条符合条件的事件数据。根据你在第2章中对样本数据生成器的不同配置,这个数据也将会有所不同。

 

为了进一步验证事件总数,我们可以先找出与BigDBookwww-1、BigDBookwww-2、BigDBookwww-3这3个主机相关联的事件总数分别有多少。各个主机的事件总数的总和与我们之前通过设置sourcetype条件所得的搜索结果应该是一致的。在搜索栏中输入“host=BigDBook*”,我们可以获得符合条件的8688个事件,并且在所有事件中host字段的值都会高亮显示,如图3-2所示。这次搜索获得的事件总数与我们之前所进行的搜索的结果一样。

 

还可以通过检查单个字段来对数据进行更深入的验证。默认的样本数据生成器有以下分类:

BLUE_GIZMOS

RED_GADGETS

WHITE_WIDGETS

ORANGE_WATCHMACALLITS

PURPLE_DOOHICKEYS

BLACK_DOODADS

可以查看如图3-3所示的Splunk搜索应用程序的左侧栏。左侧栏显示默认字段和一些附加字段,即Splunk所谓的感兴趣字段。通过特定的索引,出现在50%或超过50%的事件中,就会被定义为字段。

 

我们来看看是否有字段来自前面的分类列表。因为我们在字段列表中找不到一个有关分类的字段,所以我们需要单击列表底部的“View all 44 fields”链接。这时就会显示一个包含所有字段的对话框。我们就可以看到categoryId这个字段在列表中的第三行,如图3-4所示。

为了查看分类列表,只需单击categoryId字段这一行的第二列的条形图图标。如图3-5所示,在弹出的对话框中我们可以看到所有事件的分类列表,这个列表和我们在样本数据生成器中使用的默认分类列表是一致的。另外,在对话框中显示分类字段的值,同样也显示字段的一些统计数据,如每一个分类的事件总数和所占的百分比。更重要的是,展示这些数据时使用条形图,这是一种非常引人注目而简单的方式,这种方式有助于更好地理解特定字段。

我们可以很方便地在侧边栏增加字段。可以在“Field”对话框中进行这个操作,只需单击字段列表中action字段上的箭头图标,然后单击“Save”按钮即可。可以对action字段进行快速验证操作。在样本数据生成器中,我们将MyGizmoStore.com用户可进行的操作作为action字段的值:

购买(Purchase)

添加到购物车(Addtocart)

从购物车中删除(Remove)

查看商品分类(View)

更改购物车中的商品数量(Changequantity)

 

在左侧栏中,我们现在就可以看到action字段在选定字段列表中了。单击字段中的条形图图标,将会弹出action字段的操作信息列表,这些操作信息和刚刚列出来的一致,如图3-6所示。通过这个弹出框,我们可以看到View操作有最多的事件数量。我们将学习如何通过使用SPL处理事件来分析这些事件。

我们刚刚在这些样本数据中进行的都是基础的检查和验证,有助于我们确认获取的是正确的数据。在这个基础上,现在我们可以更细致地处理和分析数据集。Splunk搜索应用程序提供非常有用的时间选择器功能,这个功能可以让我们按时间段深入事件数据的子集,有助于我们进一步地熟悉和验证数据。我们使用之前用过的查询语句:

 

结果如图3-7所示。这个图形化的时间线用条形图的方式展示了从2012年12月28日到2013年1月27日这一个月内的事件情况。右上角的时间选择器显示了我们选择的是“All time”,在这个例子中我们将所生成的样本数据映射到这30天里。我们也可以看到sourcetype字段在每一个列出的事件中都是高亮显示的。

 

在现实中,要处理的数据可能分布在不同的年月中,或者有大量的数据分布在非常短的时间跨度内。无论在什么情况中,我们都需要到特定的时间跨度内去挖掘事件数据。这就是Splunk时间选择器十分便利的地方。单击时间选择器将显示不同的时间线选项,如图3-8所示。其中列举出来的选项可以让我们查看时间跨度小的事件,从每分钟到每小时再到每天,也可以通过自定义选项“Custom time”来使用自定义的时间跨度。

 

在时间选择器中选择“Last 7 days”选项,让我们看看在时间线这个条形图中显示了什么。如图3-9所示,我们可以看到从2013年1月21日到2013年1月28日的1923个事件的分布情况。

 

Splunk给我们提供了关于时间范围的一些命令,通过在搜索栏中输入这些命令,我们可以控制要处理的事件的时间跨度。我们将在第5章和第11章中学习关于时间范围的这些命令。

为了方便处理和分析现实世界的数据案例,我们不仅仅需要了解在左侧栏字段中和时间线中所看到的事件数,为了解更多数据的含义,我们需要学会使用SPL。它提供了简单而有效的方法来分析导入Splunk的数据。在本章的下一节中,我们将根据以下分类学习不同的SPL命令:

报表

排序

过滤

添加和评估字段

聚合

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:3.1 了解组合访问日志数据
下一篇:3.3 报表
相关文章
图文推荐
1.2.2 包与帧
1.2.1 网络协议栈
云数据中心网络技术
3.4.6 文本约定
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站