读书频道 > 网站 > 网页设计 > Splunk大数据分析
2.2.3 生成样本数据
14-05-29    奋斗的小年轻
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海立即去当当网订购

为了生成样本数据,我们可以如图2-8所示输入命令来执行Python脚本。该命令均适用于Windows和Unix操作系统。

 

一旦Python脚本执行成功,在Unix环境下,可以在/opt/log目录下找到生成的日志文件;如果是Window系统,生成的日志文件在C:\opt\log中。正如我们之前所提到的,一个典型的电子商务网站会运行在不同的服务器上,因此数据生成器为3个不同的主机模拟了日志条目,并分别命名为BigDBook-www1、BigDBook-www2和 BigDBook-www3。生成文件的位置可在脚本文件中设置。本章中生成的日志文件分别在以下几个目录中:

/opt/log/BigDBook-www1/access.log

/opt/log/BigDBook-www2/access.log

/opt/log/BigDBook-www3/access.log

在Unix环境中,如果在/opt/log目录下输入ls –Rla命令,将会得到如图2-9所示的文件列表,我们看到访问日志文件已分别为3个不同主机创建,放在3个不同的目录中。

现在,MyGizmoStore访问日志已经创建好,可以配置Splunk来监控存放这些日志文件的目录。要做到这一点,需要进入管理员界面,如同之前的操作,单击“Data inputs”链接(如图2-1)。在数据输入页面,单击“Add new”链接并在弹出的页面选择“File & directories”(文件和目录)选项。因为之前已经预览过相同的数据,所以现在我们可以选择跳过数据预览,并单击“Continue”按钮。在“Add new”页面的在资源选项下,选择单选按钮“continuously index data from a file or directory this Splunk instance can access”。因为样本生成器已经在/opt/log目录中生成了日志文件(Linux环境),所以我们在“Full path to your data”选项中输入该目录。因为我们已经为MyGizmoStore.com创建了叫做mygizmostoreindex的一个独立索引,所以我们就用它来说明怎样将数据载入主索引之外的索引。选择复选框“More”。其中一个需要设置的选项是主机名。当我们进行基于主机名的特定搜索时,这是非常有用的。“Set host”选项提供如下选择:

 

可以为主机名定一个常量名,这在让所有的日志文件使用同一主机名时有效。

正则表达式选项,它允许我们按正则表达式从一个字符串中提取主机名。

段选项,它允许我们选用完整路径名中的一段作为主机名。

对于MyGizmoStore.com,要使用多个主机名,因为测试数据生成器在/opt/log/BigDBook- www1、/opt/log/BigDBook-www2和/opt/log/BigDBook-www3下都创建了文件。因为主机名是完整路径名中的第三个值,所以我们在设置主机名时选择段选项,并把其值设为3。和载入单个文件一样,我们让Splunk自动设置数据源类型,并且我们在索引中选择新创建的索引mygizmostoreindex。我们可以在索引项的下拉菜单中找到这个索引。高级选项包括一个白名单和一个黑名单,白名单可以指定监控目录下的哪些文件,黑名单可以指定忽略哪些文件。在本例中,因为样本数据生成器只在每个子目录下生成一个日志文件,所以我们没必要填写白名单和黑名单。图2-10显示了已完成的所有配置。在完成所有设置后,单击“Save”按钮。

和前面的示例一样,我们能在Data inputs页面看到新保存的配置,如图2-11所示。

 

一旦Splunk索引文件成功,就可以查看数据。在搜索栏中输入“index=mygiz-mostoreindex”,并按回车键,如图2-12所示,就可以查看数据了。这个搜索将会列出指定索引下的所有事件,而且与之前一样每个事件将包含默认字段。我们可以看到主机名是依照我们的规格来正确设置的,即使用了文件完整路径名的第三段作为主机名。数据源类型和数据源字段也是正确的。从简单的回顾看来,数据似乎被正确索引,而且Splunk将定期地监控这些目录并添加新信息到索引mygizmostoreindex中。

 

我们现在来介绍左侧栏,它称为字段栏。左侧栏总是显示默认字段和被Splunk称为感兴趣字段的附加字段。之所以它们被定义为字段,是因为它们出现在指定索引中50%或者更多的事件当中。这是一个很有用的工具,因为它能让我们快速了解正在处理的数据。例如,我们能快速看到host字段有3个值。如果我们想知道这些值是什么,可以单击host字段右侧的条形图标。如图2-13所示,上述操作将得到一个显示host字段所有值的对话框。这样我们就可以避免审查一系列的事件来验证这3个预期值的存在。不仅如此,对话框也会显示一些关于该字段的汇总统计数据,例如包含各个值的事件的总数目和百分比。此外,对话框也用条形图表达上述信息,这使得信息更加引人注目并让人更容易理解特定字段。

 

大多时候生成的日志文件是非常大的,它们使用zip技术压缩。此外,大多数服务器有日志轮换功能,就是当日志文件的属性达到时间或者空间大小的限制后,它们将被移动到另一个地方。Splunk目录监控功能在处理这些实际用例时很智能,因为它能在索引目录中的被压缩文件前将它们解压。它也能自动检测日志轮换并且追踪最后一个被索引的日志条目的位置;在下一次处理的时候就可以从这个位置开始。当Splunk重启或正在执行维护任务时,这个功能很有用。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站