读书频道 > 网站 > 网页设计 > 数据挖掘:概念与技术(原书第3版)
3.2.2 噪声数据
12-10-10    奋斗的小年轻
收藏    我要投稿   
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群...立即去当当网订购

“什么是噪声?”噪声(noise)是被测量的变量的随机误差或方差。在第2章中,我们看到了如何使用基本统计描述技术(例如,盒图和散点图)和数据可视化方法来识别可能代表噪声的离群点。给定一个数值属性,如price,我们怎样才能“光滑”数据、去掉噪声?我们看看下面的数据光滑技术。

分箱(binning):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。图3.2表示了一些分箱技术。 图3.2 数据光滑的分箱方法在该例中,price数据首先排序并被划分到大小为3的等频的箱中(即每个箱包含3个值)。对于用箱均值光滑,箱中每一个值都被替换为箱中的均值。例如,箱1中的值4、8和15的均值是9。因此,该箱中的每一个值都被替换为9。


 

类似地,可以使用用箱中位数光滑,此时,箱中的每一个值都被替换为该箱的中位数。对于用箱边界光滑,给定箱中的最大和最小值同样被视为箱边界,而箱中的每一个值都被替换为最近的边界值。一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是常量。分箱也可以作为一种离散化技术使用,将在3.5节进一步讨论。

回归(regression):也可以用一个函数拟合数据来光滑数据。这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。回归将在3.4.5节进一步讨论。

离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点(如图3.3所示)。第12章专门研究离群点分析。

许多数据光滑的方法也用于数据离散化(一种数据变换形式)和数据归约。例如,上面介绍的分箱技术减少了每个属性的不同值的数量。对于基于逻辑的数据挖掘方法(如决策树归纳),它反复地在排序后的数据上进行比较,这充当了一种形式的数据归约。概念分层是一种数据离散化形式,也可以用于数据光滑。例如,price的概念分层可以把实际的price的值映射到便宜、适中和昂贵,从而减少了挖掘过程需要处理的值的数量。数据离散化将在3.5节讨论。有些分类方法(例如,神经网络)有内置的数据光滑机制。分类是第8章和第9章的主题。
 


 

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站