频道栏目
读书频道 > 数据库 > 其他综合 > 数据挖掘:概念与技术(原书第3版)
2.4 度量数据的相似性和相异性
2012-10-10 13:11:20     我来说两句
收藏   我要投稿
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群...  立即去当当网订购

在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中,我们需要评估对象之间相互比较的相似或不相似程度。例如,商店希望搜索顾客对象簇,得出具有类似特征(例如,类似的收入、居住区域和年龄等)的顾客组。这些信息可以用于销售。簇是数据对象的集合,使得同一个簇中的对象互相相似,而与其他簇中的对象相异。离群点分析也使用基于聚类的技术,把可能的离群点看做与其他对象高度相异的对象。对象的相似性可以用于最近邻分类,对给定的对象(例如,患者)基于它与模型中其他对象的相似性赋予一个类标号(比如说,诊断结论)。

本节给出相似性和相异性度量。相似性和相异性都称邻近性(proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则它们的相似性度量将返回0。相似性值越高,对象之间的相似性越大(典型地,值1指示完全相似,即对象是等同的)。相异性度量正好相反。如果对象相同(因而远非不相似),则它返回值0。相异性值越高,两个对象越相异。

在2.4.1节,我们提供通常用于上述应用的两种数据结构:数据矩阵(用于存放数据对象)和相异性矩阵(用于存放数据对象对的相异性值)。我们切换到与本章前面不同的数据对象概念,因为现在我们要处理由多个属性刻画的对象。然后,我们讨论如何计算被标称属性(2.4.2节)、二元属性(2.4.3节)、数值属性(2.4.4节)、序数属性(2.4.5节)和被这些属性类型组合刻画的对象的相异性(2.4.6节)。2.4.7节提供对非常长、稀疏的数据向量(如表示信息检索的文档的词频向量)的相似性度量。关于如何计算相异性的知识对于研究属性是有用的,并且也被后面关于聚类(第10和11章)、离群点分析(第12章)和最近邻分类(第9章)这些主题所引用。

您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:2.3.5 可视化复杂对象和关系
下一篇:2.4.1 数据矩阵与相异性矩阵
相关文章
图文推荐
排行
热门
最新书评
特别推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站