Web搜索引擎是一种专门的计算机服务器,在Web上搜索信息。通常,用户查询的搜索结果用一张表返给用户(有时称做采样(hit))。采样可以包含网页、图像和其他类型的文件。有些搜索引擎也搜索和返回公共数据库中的...
1.6 面向什么类型的应用哪里有数据,哪里就有数据挖掘应用。作为一个应用驱动的学科,数据挖掘已经在许多应用中获得巨大成功。我们不可能一一枚举数据挖掘扮演关键角色的所有应用。在知识密集的应用领域,如生物...
信息检索(IR)是搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在Web上。传统的信息检索与数据库系统之间的差别有两点:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没...
数据库系统研究关注为单位和最终用户创建、维护和使用数据库。特别是,数据库系统研究者们已经建立了数据建模、查询语言、查询处理与优化方法、数据存储以及索引和存取方法的公认原则。数据库系统因其在处理非常...
机器学习考察计算机如何基于数据学习(或提高它们的性能)。其主要研究领域之一是,计算机程序基于数据自动地学习识别复杂的模式,并做出智能的决断。例如,一个典型的机器学习问题是为计算机编制程序,使之从一...
统计学研究数据的收集、分析、解释和表示。数据挖掘与统计学具有天然联系。统计模型是一组数学函数,它们用随机变量及其概率分布刻画目标类对象的行为。统计模型广泛用于对数据和数据类建模。例如,23在像数据特...
作为一个应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术(见图1.11)。数据挖掘研究与开发的边缘学科特性极大...
数据挖掘系统具有产生数以千计,甚至数以万计模式或规则的潜在能力。你可能会问:所有模式都是有趣的吗?答案通常是否定的。实际上,对于给定的用户,在可能产生的模式中,只有一小部分是他感兴趣的。这对数据挖...
数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是离群点(outlier)。大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。20然而,在一些应用中(例如,欺诈检测),罕见的事件...
不像分类和回归分析标记类的(训练)数据集,聚类(clustering)分析数据对象,而不考虑类标号。在许多情况下,开始并不存在标记类的数据。19可以使用聚类产生数据组群的类标号。对象根据最大化类内相似性、最小...
分类(classification)是这样的过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即,类标号已知的数据对象)的分析。该模型...
正如名称所示,频繁模式(frequent pattern)是在数据中频繁出现的模式。存在多种类型的频繁模式,包括频繁项集、频繁子序列(又称序列模式)和频繁子结构。频繁项集一般是指频繁地在事务数据集中一起出现的商品...
数据可以与类或概念相关联。例如,在AllElectronics商店,销售的商品类包括计算机和打印机,顾客概念包括bigSpenders和budgetSpenders。用汇总的、简洁的、精确的表达方式描述每个类和概念是有用的。这种类或概念...
我们已经观察了可以进行数据挖掘的各种数据和信息存储库。现在,让我们考察可以挖掘的数据模式。存在大量数据挖掘功能,包括特征化与区分(1.4.1节),频繁模式、关联和相关性挖掘(1.4.2节),分类与回归(1.4....
除关系数据库数据、数据仓库数据和事务数据外,还有许多其他类型的数据,它们具有各种各样的形式和结构,具有很不相同的语义。这样的数据类型在许多应用中都可以看到,如时间相关或序列数据(例如历史记录、股票...
一般地说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。通常,一个事务包含一个唯一的事务标识号(trans_ID),以及一个组成事务的项(如,交易中购买的商品)的...
假设AllElectronics是一个成功的跨国公司,分部遍布全世界。每个分部都有一组自己的数据库。AllElectronics的总裁要你提供公司第三季度每种类型的商品及每个分部的销售分析。这是一项困难的任务,特别是当相关数...
1.3 可以挖掘什么类型的数据作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。对于挖掘的应用,数据的最基本形式是数据库数据(1.3.1节)、数据仓库数据(1.3.2节)和事务数据...
毫不奇怪,作为一个多学科领域,数据挖掘可以用多种方法定义。即使术语数据挖掘本身实际上也不能完全表达其主要含义。从矿石或砂子中挖掘黄金称做黄金挖掘,而不是砂石挖掘。类似地,数据挖掘应当更正确地命名为...
数据挖掘可以看做信息技术自然进化的结果。2数据库和数据管理产业在一些关键功能的开发上不断发展(见图1.1):数据收集和数据库创建、数据管理(包括数据存储和检索、数据库事务处理)和高级数据分析(包括数据...