读书频道 > 网络 > Splunk大数据分析
3.5 过滤
2014-05-30 13:34:39     我来说两句 
收藏    我要投稿   

本文所属图书 > Splunk大数据分析

在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海  立即去当当网订购

第三类SPL命令是过滤命令。过滤命令可以将输入的事件或结果进行过滤以得到规模更小的结果集。过滤有助于加速分析过程,还可以帮助我们深入到结果中挖掘更多的信息。

如果我们想要限制需要进行处理和分析的事件数量,Splunk提供了head命令,它允许我们只处理事件集的一个子集。例如,我们要在前100个符合条件的事件中找到销量最好的商品。要做到这一点,我们复用之前对商品计数并进行排序的搜索语句,我们将在搜索语句中使用head命令,查找出在100个符合条件的事件中哪些产品是销量最好的商品。

在下面的搜索中,我们使用管道操作将符合条件并包含购买操作的事件作为输入,使用head命令获取前100个符合条件的事件,然后汇总统计的结果进行最终的排序:

 

如图3-23所示,其中展示了在包含购买行为的前100个事件中销量最好的商品。我们可以看到商品OR-DEN-33是销量最好的。

Splunk也提供了一个tail命令,这个命令可以获取符合条件的后n个事件并对它们进一步分析。我们可以修改上一个搜索语句,将head命令更换成tail,如下:

 

图3-24显示更新后的搜索语句得出的搜索结果,使用后100个事件,而不是前100个事件。销量最好的产品是PA-DEL-44而不是OR-DEN-33了。尽管这个数据集比较小,但这些技术可用于分析前或后n个事件,并发现新的趋势或模式,用以确定哪些商品可能会越来越受欢迎、是否由特殊的因素导致的,如季节变化或假期。

 

另外两个非常有用的过滤命令是dedup和where。dedup命令是用来删除冗余数据的,意味着这个命令只保留对每个特定字段组合值的第一次计数的结果,丢弃其余的结果。我们将在第10章中广泛使用dedup命令。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:3.4 排序
下一篇:3.6 添加和评估字段
相关文章
图文推荐
1.2.2 包与帧
1.2.1 网络协议栈
云数据中心网络技术
3.4.6 文本约定
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站