本节我们考察数据预处理的主要步骤,即数据清理、数据集成、数据归约和数据变换。数据清理(data cleaning)例程通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。如果用户认为数...
3.1 数据预处理:概述本节概述数据预处理。3.1.1节解释定义数据质量的一些要素。这是数据预处理的动机所在。3.1.2节概述数据预处理的主要任务。3.1.1 数据质量:为什么要对数据预处理数据如果能满足其应用要求...
当今现实世界的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大(常常多达数兆兆字节,甚至更多),并且多半来自多个异种数据源。低质量的数据将导致低质量的挖掘结果。如何对数据进行预处理,提高...
描述性数据概括方法远在计算机出现之前就一直在统计学界研究。统计学描述性数据挖掘方法包括Freedman、Pisani和Purves[FPP07],Devore[Dev95]。81对于使用盒图、分位数图、分位数-分位数图、散点图和loess曲...
2.1 再给三个用于数据散布特征的常用统计度量(即未在本章讨论的),并讨论如何在大型数据库中有效地计算它们。2.2 假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为13,15,16,16,19,20,2...
?·数据集由数据对象组成。数据对象代表实体。数据对象用属性描述。属性可以是标称的、二元的、序数的或数值的。?·标称(或分类)属性的值是符号或事物的名字,其中每个值代表某种类别、编码或状态。?·二元...
文档用数以千计的属性表示,每个记录文档中一个特定词(如关键词)或短语的频度。这样,每个文档都被一个所谓的词频向量(term-frequency vector)表示。例如,在表2.5中,我们看到文档1包含词team的5个实例,而...
2.4.2节到2.4.5节讨论了如何计算由相同类型的属性描述的对象之间的相异性,其中这些类型可能是标称的、对称二元的、非对称二元的、数值的或序数的。然而,在许多实际的数据库中,对象是被混合类型的属性描述的。...
序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知(2.1.4节)。例子包括size属性的值序列small,medium,large。序数属性也可以通过把数值属性的值域划分成有限个类别,对数值属性离散化得到。这些...
本节,我们介绍广泛用于计算数值属性刻画的对象的相异性的距离度量。这些度量包括欧几里得距离、曼哈顿距离和闵可夫斯基距离。在某些情况下,在计算距离之前数据应该规范化。这涉及变换数据,使之落入较小的公共...
我们考察用对称和非对称二元属性刻画的对象间的相异性和相似性度量。回忆一下,二元属性只有两种状态:0或1,其中0表示该属性不出现,1表示它出现(2.1.3节)。例如,给出一个描述患者的属性smoker,1表示患者抽...
标称属性可以取两个或多个状态(2.1.2节)。例如,map_color是一个标称属性,它可以有比如说5种状态:红、黄、绿、粉红和蓝。设一个标称属性的状态数目是M。这些状态可以用字母、符号或者一组整数(如1,2,…,...
在2.2节,我们考察了研究某属性X的观测值的中心趋势和散布的方法。那里,我们的对象是一维的,即被单个属性刻画。本节,我们谈论的对象被多个属性刻画。因此,我们需要改变记号。假设我们有n个对象(如人、商品或...
在诸如聚类、离群点分析和最近邻分类等数据挖掘应用中,我们需要评估对象之间相互比较的相似或不相似程度。例如,商店希望搜索顾客对象簇,得出具有类似特征(例如,类似的收入、居住区域和年龄等)的顾客组。这...
早期,可视化技术主要用于数值数据。最近,越来越多的非数值数据,如文本和社会网络已经成为可利用的。可视化和分析这类数据引起了更多关注。有许多新的可视化技术专门用于这类数据。例如,Web上许多人对诸如图片...
迄今为止所讨论的可视化技术都关注同时可视化多个维。然而,对于大型高维数据集,很难同时对所有维可视化。层次可视化技术把所有维划分成子集(即子空间),这些子空间按层次可视化。世界中的世界(Worlds-withi...
基于图符的(icon-based)可视化技术使用少量图符表示多维数据值。我们考察两种流行的基于图符的技术——切尔诺夫脸和人物线条画。切尔诺夫脸(Chernoff faces)是统计学家赫尔曼·切尔诺夫于1973年引进的。它把...
基于像素的可视化技术的一个缺点是,它们对于我们理解多维空间的数据分布帮助不大。例如,它们并不显示在多维子空间是否存在稠密区域。58几何投影技术帮助用户发现多维数据集的有趣投影。几何投影技术的首要挑战...
一种可视化一维值的简单方法是使用像素,其中像素的颜色反映该维的值。对于一个m维数据集,基于像素的技术(pixel-oriented technique)在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口中对应位置...
如何有效地向用户表示数据?数据可视化(data visualization)旨在通过图形表示清晰有效地表达数据。数据可视化已经在许多应用领域广泛使用。例如,我们可以在编写报告、管理工商企业运转、跟踪任务进展等工作中...