频道栏目
首页 > 安全 > 其他综合 > 正文
  • 2.2.3 数据的基本统计描述的图形显示

    本节我们研究基本统计描述的图形显示,包括分位数图、分位数-分位数图、直方图和散点图。这些图形有助于可视化地审视数据,对于数据预处理是有用的。前三种图显示一元分布(即,一个属性的数据),而散点图显示二...

    关键词:

  • 2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

    现在,我们考察评估数值数据散布或发散的度量。这些度量包括极差、分位数、四分位数、百分位数和四分位数极差。五数概括可以用盒图显示,它对于识别离群点是有用的。方差和标准差也可以指出数据分布的散布。1.极...

    关键词: 2.2.2∪  数据  散布 

  • 2.2.1 中心趋势度量:均值、中位数和众数

    本节,我们考察度量数据中心趋势的各种方法。假设我们有某个属性X,如salary,已经对一个数据对象集记录了它们的值。令x1,x2,…,xN为X的N个观测值或观测。在本节的余下部分,这些值又称(X的)数据集。如果我...

    关键词: 2.2.1   中心  趋势 

  • 2.2 数据的基本统计描述

    对于成功的数据预处理而言,把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。本节讨论三类基本统计描述。我们从中心趋势度量开始(2.2.1节),它度量数据...

    关键词:  数据  基本  统计 

  • 2.1.6 离散属性与连续属性

    我们已经把属性分为标称、二元、序数和数值类型。可以用许多方法来组织属性类型,这些类型不是互斥的。机器学习领域开发的分类算法通常把属性分成离散的或连续的。每种类型都可以用不同的方法处理。离散属性具有...

    关键词: 2.1.6   离散  属性 

  • 2.1.5 数值属性

    数值属性(numeric attribute)是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。1.区间标度属性区间标度(interval-scaled)属性用相等的单位尺度度量。区间属性的值有...

    关键词: 2.1.5   数值  属性 

  • 2.1.4 序数属性

    序数属性(ordinal attribute)是一种属性,其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。例2.3 序数属性。假设drink_size对应于快食店供应的饮料量。这个标称属性具有3个可...

    关键词: 2.1.4   序数  属性 

  • 2.1.3 二元属性

    二元属性(binary attribute)是一种标称属性,只有两个类别或状态:0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于true和false的话。例2.2 二元属性。倘若属性smo...

    关键词: 2.1.3     

  • 2.1.2 标称属性

    标称意味与名称相关。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。在计算机科学中,...

    关键词: 2.1.2£    属性 

  • 2.1.1 什么是属性

    2.1 数据对象与属性类型数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售;在医疗数据库中,对象可以是患者;在大学的数据库中,对象可以是学生、教授和课程...

    关键词: 2.1.1   什么是  属性 

  • 概述

    直接跳到数据挖掘充满了诱惑,但是,我们首先需要准备好数据。这涉及仔细考察属性和数据值。现实世界中的数据一般有噪声、数量庞大(通常数兆兆字节或更多)并且可能来自异种数据源。本章旨在熟悉数据。对于数据...

    关键词: 概述 

  • 1.10 文献注释

    Piatetsky-Shapiro和Frawley编辑的书Knowledge Discovery in Databases[P-SF91]是数据中知识发现早期研究论文的汇集。Fayyad、Piatetsky-Shapiro、Smyth和Uthurusamy编辑的书Advances in Knowledge Disc...

    关键词: 1.10   文献  注释 

  • 1.9 习题

    1.1 什么是数据挖掘?在你的回答中,强调以下问题:(a)它是又一种广告宣传吗?(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出了一种观点,说数据挖掘是数据库...

    关键词: 1.9   习题 

  • 1.8 小结

    ?·需要是发明之母。随着每个应用中的数据的急剧增长,数据挖掘迎合了当今社会对有效的、可伸缩的和灵活的数据分析的迫切需要。数据挖掘可以看做信息技术的自然进化,是一些相关学科和应用领域的交汇点。?·数...

    关键词: 1.8   小结 

  • 1.7.5 数据挖掘与社会

    数据挖掘对社会有何影响?数据挖掘可以采取什么步骤来保护个人隐私?我们可以甚至不知道在做什么,而在日常生活中使用数据挖掘吗?这些问题提出了以下议题:?·数据挖掘的社会影响:由于数据挖掘渗透到我们的日...

    关键词: 1.7.5   数据挖掘   

  • 1.7.4 数据库类型的多样性

    数据库类型的多样性为数据挖掘带来了一些挑战,这些挑战包括:?·处理复杂的数据类型:多样化的应用产生了形形色色的新数据集,从诸如关系数据库和数据仓库数据这样的结构化数据到半结构化数据和无结构数据,从...

    关键词: 1.7.4   数据库  类型 

  • 1.7.3 有效性和可伸缩性

    在比较数据挖掘算法时,总是需要考虑有效性与可伸缩性。随着数据量持续增加,这两个因素尤其重要。?·数据挖掘算法的有效性和可伸缩性:为了有效地从多个数据库或动态数据流的海量数据中提取信息,数据挖掘算法...

    关键词: 1.7.3   有效性   

  • 1.7.2 用户界面

    用户在数据挖掘过程中扮演重要角色。有趣的研究领域包括如何与数据挖掘系统交互,如何在挖掘中融入用户的背景知识,以及如何可视化和理解数据挖掘的结果。下面,我们分别介绍这些领域。?·交互挖掘:数据挖掘过...

    关键词: 1.7.2   用户界面 

  • 1.7.1 挖掘方法

    精力充沛的研究者们已经开发了一些数据挖掘方法,涉及新的知识类型的研究、多维空间挖掘、集成其他领域的方法以及数据对象之间语义捆绑的考虑。此外,挖掘方法应该考虑诸如数据的不确定性、噪声和不完全性等问题...

    关键词: 1.7.1   挖掘  方法 

  • 1.7 数据挖掘的主要问题

    生命短暂,但艺术长存。——Hippocrats数据挖掘是一个动态的、强势快速扩展的领域。这里,我们简要概述数据挖掘研究的主要问题,把它们划分成五组:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数...

    关键词: 1.7   数据挖掘   

排行
热门
论坛推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站