读书频道 > 网络 > Splunk大数据分析
3.3.3 浏览量来源最多的网站
2014-05-30 13:09:35     我来说两句 
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海  立即去当当网订购

如今,大部分用户都是通过第三方网站或者如Google、Yahoo、Bing的搜索引擎来跳转到当前网站的。而在某些情况下,用户单击在浏览网页时弹出的在线广告而跳转到其他网站并继续在其中进行操作。对于MyGizmoStore.com这样的网上零售商店,找出用户是从哪儿链接到当前网页、哪些关键词是最吸引用户的、在什么地方投放在线广告等信息都是有重大意义的。

对于MyGizmoStore.com来说,我们希望能够找出浏览量来源最多的网站,而不仅仅是MyGizmoStore.com自身。我们将会使用下面的搜索,通过这个搜索我们将会查找来源地址中不含MyGizmo的事件。使用“!=”表示不等于。第一个子句将会把搜索结果作为输入数据传给top命令,生成一个包含指向MyGizmoStore.com的链接的网址报表,最后将percent字段这一列从结果集中排除:

 

值得注意的是,第一个语句隐含着sourcetype和referer之间AND(和)的关系。搜索命令语句之间默认会进行AND操作,所以这个语句等同于:

 

如图3-16所示,共有2256个事件符合搜索条件。除了MyGizmoStore.com自身之外,Bing、Yahoo、Google是前三位浏览量来源最多的网站。我们将看到,percent这一列已从结果中排除。

 

虽然获取各种活动或事件的排名报表十分有用,但除此之外我们还会想要知道有哪些命令获取的结果是相反的。这就是报表命令rare可以做的事情。这条命令和top命令获取的结果是完全相反的。我们可以在之前的搜索中将top命令用rare命令来进行替换,找出哪些浏览器是使用最少的、哪些网站是访问量来源最少的等。

我们将学习到的下一个报表指令是stats。这条命令非常重要,因为它可以用来对给定数据集进行汇总统计。stats命令具备的功能函数有count、average、min、median、mode及sum等,这些功能函数能够对多个事件求值,将多个事件根据一定的标准分组并且求出单个或者多个与这些事件有关系的值。这跟SQL的聚合十分类似。

类似MyGizmoStore.com的在线网站可能会由于各种各样的原因响应客户端请求失败,Apache和IIS等Web服务器就会返回4xx或5xx的HTTP状态码。表3-2是部分4xx和5xx状态码。

表3-2 4XX和5XX状态码描述
HTTP状态码 描  述
400 请求失败:由于包含语法错误,服务器无法识别当前客户端请求
401 未进行用户验证:当前客户端请求需要用户验证
403 禁止:服务器已理解当前请求,但拒绝执行。例如,大部分的网站拒绝用户访问网站的目录结构
404 未找到:客户端请求的资源在服务器上未找到,例如网页或者图片
405 不支持的方法:Web服务器不支持当前客户端的请求方法
407 需要在代理服务器上进行身份验证:与401响应类似,只不过客户端请求必须在代理服务器上进行身份验证
408 请求超时:客户端没有在服务器预计等待的时间内完成一个请求的发送
500 内部服务器错误:服务器遇到了一个未曾预料的状况,导致它无法完成对请求的处理
501 未实现:服务器不支持当前请求所需要的某个功能
502 网关出错:服务器尝试执行请求时,从上游服务器接收到无效的响应
503 服务不可用:由于服务器过载,服务器无法处理当前请求
504 网关超时:服务器尝试执行请求时,未能及时从上游服务器(如LDAP)收到响应
505 不支持的HTTP版本:服务器不支持在客户端请求中使用的HTTP协议版本

为更好地学习stats命令,我们将看看一些发生在典型的网上零售商店(例如My-GizmoStore.com)上的案例:

找出所有客户端请求失败的事件,例如产生的HTTP状态码为404,然后基于不同的域名或者Web服务器统计事件数

查找出所有的购买操作,并计算这些事件中购买操作涉及的产品数量

网站需要追踪HTTP状态码,如代表请求的资源未找到或者不可用的404代码。这个资源可以是一个HTML页面、一个图片或者其他类似的对象。追踪某一HTTP状态码或者一个如4XX的状态码类可以帮助网站维护者进行网站修复,并确保用户能够获取到他们想要的东西。我们接下来将继续一步一步地对这两个用例进行分析,首先我们来搜索包含404状态的事件。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:3.3.2 排名前五的IP地址
下一篇:3.3.4 有多少404事件
相关文章
图文推荐
1.2.2 包与帧
1.2.1 网络协议栈
云数据中心网络技术
3.4.6 文本约定
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站