频道栏目
读书频道 > 数据库 > 其他综合 > 数据挖掘:概念与技术(原书第3版)
2.5 小结
2012-10-10 14:00:16     我来说两句
收藏   我要投稿
本书完整全面地讲述数据挖掘的概念、方法、技术和最新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群...  立即去当当网订购

?·数据集由数据对象组成。数据对象代表实体。数据对象用属性描述。属性可以是标称的、二元的、序数的或数值的。

?·标称(或分类)属性的值是符号或事物的名字,其中每个值代表某种类别、编码或状态。

?·二元属性是仅有两个可能状态(如1和0,或真与假)的标称属性。如果两个状态同等重要,则该属性是对称的,否则它是非对称的。

?·序数属性是其可能的值之间具有有意义的序或排位,但相继值之间的量值未知的属性。

?·数值属性是定量的(即它是可测量的量),用整数或实数值表示。数值属性的类型可以是区间标度的或比率标度的。区间标度属性的值用固定、相等的单位测量。比率标度属性是具有固有0点的数值属性。度量称为比率标度的,因为我们可以说它们的值比测量单位大多少倍。

?·基本统计描述为数据预处理提供了分析基础。数据概括的基本统计度量包括度量数据中心趋势的均值、加权平均、中位数和众数,以及度量数据散布的极差、分位数、四分位数、四分位数极差、方差和标准差。图形表示(例如,盒图、分位数图、分位数-分位数图、直方图和散点图)有助于数据的可视化考察,因而对数据预处理和挖掘是有用的。

?·数据可视化技术可以是基于像素的、基于几何学的、基于图标的或层次的。这些方法用于多维关系数据。已经提出了可用于复杂数据(如文本和社会网络)可视化的技术。?对象相似性和相异性度量用于诸如聚类、离群点分析、最近邻分类等数据挖掘应用中。这种邻近性度量可以对本章介绍的每种属性类型或这些属性类型的组合进行计算。例子包括用于非对称二元属性的Jaccard系数,用于数值属性的欧几里得距离、曼哈顿距离、闵可夫斯基距离和上确界距离。对于涉及稀疏数值数据向量(如词频向量)的应用,余弦度量和Tanimoto系数通常用于相似性评估。

您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:2.4.7 余弦相似性
下一篇:2.6 习题
相关文章
图文推荐
排行
热门
最新书评
文章
下载
读书
特别推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站