频道栏目
首页 > 安全 > 其他综合 > 正文
  • 3.5.2 通过规范化变换数据

    所用的度量单位可能影响数据分析。例如,把height的度量单位从米变成英寸,把weight的度量单位从公斤改成磅,可能导致完全不同的结果。一般而言,用较小的单位表示属性将导致该属性具有较大值域,因此趋向于使这...

    关键词: 3.5.2   通过  规范化 

  • 3.5.1 数据变换策略概述

    3.5 数据变换与数据离散化本节介绍数据变换方法。在数据预处理阶段,数据被变换或统一,使得挖掘过程可能更有效,挖掘的模式可能更容易理解。本节还讨论数据离散化。数据离散化是一种数据变换形式。3.5.1 数据...

    关键词: 3.5.1   数据  变换 

  • 3.4.9 数据立方体聚集

    想象你已经为你的分析收集了数据。这些数据由AllElectronics 2008~2010年每季度的销售数据组成。然而,你感兴趣的是年销售(每年的总和),而不是每季度的总和。于是可以对这种数据聚集,使得结果数据汇总每年的...

    关键词: 3.4.9   数据  立方体 

  • 3.4.8 抽样

    抽样可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。假定大型数据集D包含N个元组。我们看看可以用于数据归约的、最常用的对D的抽样方法,如图3.9所示。?`s个样本的...

    关键词: 3.4.8   抽样 

  • 3.4.7 聚类

    聚类技术把数据元组看做对象。它将对象划分为群或簇,使得在一个簇中的对象相互相似,而与其他簇中的对象相异。通常,相似性基于距离函数,用对象在空间中的接近程度定义。簇的质量可以用直径表示,直径是簇中两...

    关键词: 3.4.7   聚   

  • 3.4.6 直方图

    直方图使用分箱来近似数据分布,是一种流行的数据归约形式。直方图曾在2.2.3节介绍过。属性A的直方图(histogram)将A的数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对,则该桶称为单值桶。...

    关键词: 3.4.6   直方图 

  • 3.4.5 回归和对数线性模型:参数化数据归约

    回归和对数线性模型可以用来近似给定的数据。在(简单)线性回归中,对数据建模,使之拟合到一条直线。例如,可以用以下公式,将随机变量y(称做因变量)表示为另一随机变量x(称为自变量)的线性函数,其中,假...

    关键词: 3.4.5   回归  对数 

  • 3.4.4 属性子集选择

    用于分析的数据集可能包含数以百计的属性,其中大部分属性可能与挖掘任务不相关,或者是冗余的。例如,如果分析任务是按顾客听到广告后是否愿意在AllElectronics购买新的流行CD将顾客分类,与属性age(年龄)和m...

    关键词: 3.4.4   属性  子集 

  • 3.4.3 主成分分析

    本节,我们直观地介绍主成分分析,把它作为一种维归约方法。详细的理论解释已超出本书范围。关于参考文献,请参阅本章后面的文献注释(3.8节)。假设待归约的数据由用n个属性或维描述的元组或数据向量组成。主成...

    关键词: 3.4.3   主  成分 

  • 3.4.2 小波变换

    离散小波变换(DWT)是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量X′。两个向量具有相同的长度。当这种技术用于数据归约时,每个元组看做一个n维数据向量,即X=(x1,x2,…...

    关键词: 3.4.2   小波  变换 

  • 3.4.1 数据归约策略概述

    数据归约策略包括维归约、数量归约和数据压缩。维归约(dimensionality reduction)99减少所考虑的随机变量或属性的个数。维归约方法包括小波变换(3.4.2节)和主成分分析(3.4.3节),它们把原数据变换或投影到...

    关键词: 3.4.1   数据  策略 

  • 3.4 数据归约

    假定你已经从AllElectronics数据仓库选择了数据,用于分析。数据集可能非常大!在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。数据归约(data reduction)技术可以用来得到...

    关键词: 3.4   数据   

  • 3.3.4 数据值冲突的检测与处理

    数据集成还涉及数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中...

    关键词: 3.3.4   数据  冲突 

  • 3.3.3 元组重复

    除了检测属性间的冗余外,还应当在元组级检测重复(例如,对于给定的唯一数据实体,存在两个或多个相同的元组)。去规范化表(denormalized table)的使用(这样做通常是通过避免连接来改善性能)是数据冗余的另...

    关键词: 3.3.3   元   

  • 3.3.2 冗余和相关分析

    冗余是数据集成的另一个重要问题。一个属性(例如,年收入)如果能由另一个或另一组属性导出,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。有些冗余可以被相关分析检测到。给定...

    关键词: 3.3.2   冗余  相关 

  • 3.3.1 实体识别问题

    数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑...

    关键词: 3.3.1   实体  识别 

  • 3.3 数据集成

    数据挖掘经常需要数据集成——合并来自多个数据存储的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后挖掘过程的准确性和速度。数据语义的多样性和结构对数据集成提出了巨大的挑战。如何匹...

    关键词: 3.3   数据  集成 

  • 3.2.3 数据清理作为一个过程

    缺失值、噪声和不一致性都导致不正确的数据。迄今为止,我们已经考察了处理缺失数据和光滑数据的技术。但是,数据清理可能是一项繁重的任务。数据清理作为一个过程怎么样?如何正确地进行这项工作?有没有工具来...

    关键词: 3.2.3   数据  清理 

  • 3.2.2 噪声数据

    什么是噪声?噪声(noise)是被测量的变量的随机误差或方差。在第2章中,我们看到了如何使用基本统计描述技术(例如,盒图和散点图)和数据可视化方法来识别可能代表噪声的离群点。给定一个数值属性,如price,我...

    关键词: 3.2.2   噪声  数据 

  • 3.2.1 缺失值

    3.2 数据清理现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。本节我们将研究数据清理的基本方法。3.2.1节考察处理缺失值的方法...

    关键词: 3.2.1   缺失   

排行
热门
论坛推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站