读书频道 > 网站 > 网页设计 > Splunk大数据分析
2.2.2 数据生成器
14-05-29    奋斗的小年轻
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海立即去当当网订购

样本数据生成器是使用Python脚本语言编写的。它可以运行在微软Windows和Linux操作系统中。样本数据生成器使用随机生成器来随机创建网站访客的IP地址,形如“CA-NY-99”的预定义的产品识别码集合和“HYD-19”形式的项目标识码。在商店出售的物品可以分类如下:

BLUE_GIZMOS

RED_GADGETS

WHITE_WIDGETS

ORANGE_WATCHMACALLITS

PURPLE_DOOHICKEYS

BLACK_DOODADS

网站的访问者可以执行以下操作:

购买

向购物车中添加商品(Addtocart)

从购物车中删除商品(Remove)

查看物品的分类(View)

改变购物车中某一商品的数量(Changequantity)

网站使用的HTTP协议包含一个返回码,这个返回码要么表示操作成功要么描述产生的问题。代码200表示操作成功,而以4和5开头的代码就表示出现了某些问题。数据生成器创建了接近现实百分比的错误代码。此外,数据生成器包含用户代理(浏览器类型)的随机取样。下面这些花哨的名字描述了访客所使用的浏览器和操作系统以及它们各自的版本号。

Mozilla/4.0 (可兼容的; MSIE 6.0; Windows NT 5.1; SV1)

Opera/9.01 (Windows NT 5.1; U; en)

Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_3; en-US) AppleWebKit/533.4 (KHTML, 如Gecko) Chrome/5.0.375.38 Safari/533.4

Mozilla/4.0 (可兼容的; MSIE 6.0; Windows NT 5.1)

Googlebot/2.1 ( http://www.googlebot.com/bot.html)

Mozilla/4.0 (可兼容的; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322)

Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6

Opera/9.20 (Windows NT 6.0; U; en)

数据生成器脚本可以自定义用户代理类型和HTTP错误代码的数量所占百分比,默认设置分别为25%和30%。生成器对于最大事件数量有一个默认值,即30天50 000条。生成器会创建截至当前日期之前30天这段时间的样本数据。在本例中,使用默认设置。

为了运行数据生成器,需要在系统中安装Python 2.7或以上版本。可以使用附带了Python的Splunk。我们发现Python安装在目录$SPLUNK_HOME/bin下($SPLUNK_HOME是Splunk的安装目录)。数据生成器脚本已经在Python 3.1.5和Splunk自带的Python 2.7下测试过了。我们可以访问http://www.python.org来获取关于Python的更多信息。样本数据生成器脚本包含在本书的下载包中,名字是Generate_Apache_Logs.py。我们已经在Linux机器下的目录/datagen/BigDBook安装了这个脚本。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站