频道栏目
读书频道 > 数据库 > 其他综合 > Python数据分析与挖掘实战
3.2.1 分布分析
2015-12-14 13:13:30     我来说两句
收藏   我要投稿

本文所属图书 > Python数据分析与挖掘实战

本书共15章,分两篇:基础篇和实战篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的  立即去当当网订购

3.2 数据特征分析

对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。

3.2.1 分布分析

分布分析能揭示数据的分布特征和分布类型。对于定量数据,欲了解其分布形式是对称的还是非对称的,发现某些特大或特小的可疑值,可通过绘制频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性分类数据,可用饼图和条形图直观地显示分布情况。

1.定量数据的分布分析

对于定量变量而言,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照以下步骤进行。

1)求极差。

2)决定组距与组数。

3)决定分点。

4)列出频率分布表。

5)绘制频率分布直方图。

遵循的主要原则如下。

1)各组之间必须是相互排斥的。

2)各组必须将所有的数据包含在内。

3)各组的组宽最好相等。

下面结合具体实例,运用分布分析对定量数据进行特征分析。

表3-2是描述菜品“捞起生鱼片”在2014年第二个季度的销售数据,通过表中数据绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。




(1)求极差

极差=最大值-最小值=3960-45=3915

(2)分组

这里根据业务数据的含义,可取组距为500。

组数=极差/组距=3915/500=7.838

(3)决定分点

分布区间如表3-3所示。




(4)绘制频率分布直方图[3]

根据分组区间得到如表3-4所示的频率分布表。其中,第1列将数据所在的范围分成若干组段,第1个组段要包括最小值,最后一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第一个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。

第3列和第4列分别为频数和频率。第5列是累计频率,是否需要计算该列视情况而定。



 

(5)绘制频率分布直方图

若以2014年第二季度“捞起生鱼片”每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,表34的数据可绘制成频率分布直方图,如图3-3所示。


 

2.定性数据的分布分析

对于定性变量,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。
饼图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼图分成几个部分,每一部分的大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。


 

您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:3.1.3 一致性分析
下一篇:3.2.2 对比分析
相关文章
图文推荐
排行
热门
最新书评
特别推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站