频道栏目
读书频道 > 数据库 > 其他综合 > 数据挖掘:概念与技术(原书第3版)
2.4.6 混合类型属性的相异性
2012-10-10 13:41:54     我来说两句
收藏   我要投稿
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群...  立即去当当网订购

2.4.2节到2.4.5节讨论了如何计算由相同类型的属性描述的对象之间的相异性,其中这些类型可能是标称的、对称二元的、非对称二元的、数值的或序数的。然而,在许多实际的数据库中,对象是被混合类型的属性描述的。一般来说,一个数据库可能包含上面列举的所有属性类型。

“那么,我们如何计算混合属性类型的对象之间的相异性?”一种方法是将每种类型的属性分成一组,对每种类型分别进行数据挖掘分析(例如,聚类分析)。如果这些分析得到兼容的结果,则这种方法是可行的。然而,在实际的应用中,每种属性类型分别分析不大可能产生兼容的结果。

一种更可取的方法是将所有属性类型一起处理,只做一次分析。一种这样的技术将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间[0.0,1.0]上。

假设数据集包含p个混合类型的属性,对象i和j之间的相异性d(i,j)定义为:


 

其中,指示符=0,如果xif或xjf缺失(即对象i或对象j没有属性f的度量值),或者xif=xjf=0,并且f是非对称的二元属性;否则,指示符 =1。属性f对i和j之间相异性的贡献根据它的类型计算:

?·f是数值的:,其中h遍取属性f的所有非缺失对象。

?·f是标称或二元的:如果xif=xjf,则=0;否则 =1。

?·f是序数的:计算排位rif和,并将zif作为数值属性对待。

上面的步骤与我们所见到的各种单一属性类型的处理相同。唯一的不同是对于数值属性的处理,其中规格化使得变量值映射到了区间[0.0,1.0]。这样,即便描述对象的属性具有不同类型,对象之间的相异性也能够进行计算。

例2.22 混合类型属性间的相异性。我们来计算表2.2中对象的相异性矩阵。现在,我们将考虑所有属性,它们具有不同类型。在例2.17到例2.21中,我们对每种属性计算了相异性矩阵。处理test-1(它是标称的)和test-2(它是序数的)的过程与上文所给出的处理混合类型属性的过程是相同的。因此,在下面计算(2.22)式时,我们可以使用由test-1和test-2所得到的相异性矩阵。然而,我们首先需要对第3个属性test-3(它是数值的)计算相异性矩阵。即,我们必须计算。根据数值属性的规则,我们令maxhxh=64,minhxh=22。二者之差用来规格化相异性矩阵的值。结果,test-3的相异性矩阵为:


 

现在就可以在计算(2.22)式时利用这三个属性的相异性矩阵了。对于每个属性f,指示符 =1。例如,我们得到。由三个混合类型的属性所描述的数据得到的结果相异性矩阵如下:


 

由表2.2,基于对象1和对象4在属性test-1和test-2上的值,我们可以直观地猜测出它们两个最相似。这一猜测通过相异性矩阵得到了印证,因为d(4,1)是任何两个不同对象的最小值。类似地,相异性矩阵表明对象2和对象4最不相似。

您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:2.4.5 序数属性的邻近性度量
下一篇:2.4.7 余弦相似性
相关文章
图文推荐
排行
热门
最新书评
文章
下载
读书
特别推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站