读书频道 > 网站 > 网页设计 > 数据挖掘:概念与技术(原书第3版)
2.2.1 中心趋势度量:均值、中位数和众数
12-10-10    奋斗的小年轻
收藏    我要投稿   
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群...立即去当当网订购

本节,我们考察度量数据中心趋势的各种方法。假设我们有某个属性X,如salary,已经对一个数据对象集记录了它们的值。令x1,x2,…,xN为X的N个观测值或观测。在本节的余下部分,这些值又称(X的)“数据集”。如果我们标出salary的这些观测,大部分值将落在何处?这反映数据的中心趋势的思想。中心趋势度量包括均值、中位数、众数和中列数。

数据集“中心”的最常用、最有效的数值度量是(算术)均值。令x1,x2,…,xN为某数值属性X(如salary)的N个观测值或观测。该值集合的均值(mean)为


 

这对应于关系数据库系统提供的内置聚集函数average(SQL的avg())。

例2.6 均值。假设我们有salary的如下值(以千美元为单位),按递增次序显示:30,31,47,50,52,52,56,60,63,70,70,110。使用(2.1)式,我们有


 

因此,salary的均值为58000美元。

有时,对于i=1,…,N,每个值xi可以与一个权重wi相关联。权重反映它们所依附的对应值的意义、重要性或出现的频率。在这种情况下,我们可以计算


 

这称做加权算术均值或加权平均。

尽管均值是描述数据集的最有用的单个量,但是它并非总是度量数据中心的最佳方法。主要问题是,均值对极端值(例如,离群点)很敏感。例如,公司的平均薪水可能被少数几个高收入的经理显著推高。类似地,一个班的考试平均成绩可能被少数很低的成绩拉低一些。为了抵消少数极端值的影响,我们可以使用截尾均值(trimmed mean)。截尾均值是丢弃高低极端值后的均值。例如,我们可以对salary的观测值排序,并且在计算均值之前去掉高端和低端的2%。我们应该避免在两端截去太多(如20%),因为这可能导致丢失有价值的信息。

对于倾斜(非对称)数据,数据中心的更好度量是中位数(median)。中位数是有序数据值的中间值。它是把数据较高的一半与较低的一半分开的值。

在概率论与统计学,中位数一般用于数值数据。然而,我们把这一概念推广到序数数据。假设给定某属性X的N个值按递增序排序。如果N是奇数,则中位数是该有序集的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在X是数值属性的情况下,根据约定,中位数取作最中间两个值的平均值。

例2.7 中位数。让我们找出例2.6中数据的中位数。该数据已经按递增序排序。有偶数个观测(即12个观测),因此中位数不唯一。它可以是最中间两个值52和56(即列表中的第6和第7个值)中的任意值。根据约定,我们指定这两个最中间的值的平均值为中位数。即。于是,中位数为54000美元。

假设我们只有该列表的前11个值。给定奇数个值,中位数是最中间的值。这是列表的第6个值,其值为52000美元。

当观测的数量很大时,中位数的计算开销很大。然而,对于数值属性,我们可以很容易计算中位数的近似值。假定数据根据它们的xi值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分到诸如10000~20000美元、20000~30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值(例如,薪水的中位数):


 

其中,L1是中位数区间的下界,N是整个数据集中值的个数,46(freq)l是低于中位数区间的所有区间的频率和,freqmedian是中位数区间的频率,而width是中位数区间的宽度。

众数是另一种中心趋势度量。数据集的众数(mode)是集合中出现最频繁的值。因此,可以对定性和定量属性确定众数。可能最高频率对应多个不同值,导致多个众数。具有一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰的(trimodal)。一般地,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。

例2.8 众数。例2.6的数据是双峰的,两个众数为52000美元和70000美元。

对于适度倾斜(非对称)的单峰数值数据,我们有下面的经验关系


 

这意味:如果均值和中位数已知,则适度倾斜的单峰频率曲线的众数容易近似计算。

中列数(midrange)也可以用来评估数值数据的中心趋势。中列数是数据集的最大和最小值的平均值。中列数容易使用SQL的聚集函数max()和min()计算。

例2.9 中列数。例2.6数据的中列数为美元。

在具有完全对称的数据分布的单峰频率曲线中,均值、中位数和众数都是相同的中心值,如图2.1a所示。

在大部分实际应用中,数据都是不对称的。它们可能是正倾斜的,其中众数出现在小于中位数的值上(见图2.1b);或者是负倾斜的,其中众数出现在大于中位数的值上(见图2.1c)。
 



 

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站