2 2 相似度距离和相关系数的本质都是相似度。距离用来表示两个(组)散乱数据间的相似度;而相关系数用来表示两组近似线性的数据的相似度。2 2 1 期望与方差1 数学期望如果X是在概率空间(Ω,P)中的一个
1 随机变量给定样本空间(S,F),其上的实值函数X:S→R称为(实值)随机变量。如果随机变量X的取值是有限的或者是可数无穷尽的值,则称X为离散随机变量(即此类随机变量是间断的)。X={x1,x2,x3,…}如果X由全部实数
1 统计学的基本概念总体、个体、样本:把所考察对象的某一个数值指标的全体构成的集合看成总体,构成总体的每一个元素称为个体,从总体中抽出若干个体所组成的集合叫作样本。随机抽样:抽样时,保证每一个个体都
概率统计是数据挖掘的数学基础之一,概率统计中的期望、方差都是数据挖掘中很重要的基础概念。在概率论和统计学中,一个离散性随机变量的期望值(或数学期望、均值,亦简称期望)E(X)是试验中每次可能结果的概率
数据挖掘的数学基础主要有概率论与数理统计、矩阵理论、线性代数等。本章首先介绍概率统计的基础知识,其次介绍从概率统计中引申出的各种相似度计算方法,然后介绍矩阵计算的相关理论,最后介绍一种与线性代数有
Internet的迅猛发展使得网络上的各种资源信息异常丰富,而数据的迅速增加与数据分析方法的滞后之间的矛盾也越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,传统分析方
数据挖掘系统已成功地用于超大型数据库的知识挖掘。它广泛地应用于市场营销、银行业、生产销售、零售业、制造业、经济业、保险业、政府防卫、医药业、电信业、公司经营管理、计算机软件和硬件等各个应用方向。工
R语言是主流的数据挖掘语言之一,主要用于统计分析、绘图、数据挖掘等。R语言的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和M
由Java开发的WEKA(Waikato Environment for Knowledge Analysis)是一个非常强大的机器学习开源软件,其支持上百种前沿和经典的数据挖掘任务,可以说集目前的数据挖掘算法之大成,而且使用非常方便,是做数
SAS是主流的数据挖掘平台之一,与IBM的SPSS类似,它可以实现某些常见的数据挖掘功能,比如聚类分析或者主因子分析,但是对前沿算法的支持不如MATLAB或者WEKA。SAS是一个庞大的系统,可以运行在多种操作系统中。S
计算机程序就是计算机指令的集合,不同编程语言的指令功能是不一样的。MATLAB语言是一种面向对象的高级语言,是主流的数据挖掘语言之一,具有编程效率高、易学易用、调试容易等优点。MATLAB有两种常用的工作方式
前面已经介绍过Pig是在Hadoop的MapReduce上构建的一种类似SQL的脚本语言。Pig语言比使用Java、C++等语言编写大规模数据处理程序的难度要小N倍,实现同样效果的代码量也少N倍。Pig可以和Java C Shell语言互相配合
1 HadoopHadoop是目前主流的分布式海量数据挖掘平台。Hadoop是一个开发和运行处理大规模数据的软件平台,是Apache的一个用Java语言实现的开源软件框架,可以实现在由大量计算机组成的集群中对海量数据进行分布式计
在进行数据挖掘时,一方面要设计处理大数据的方法与策略,另一方面要选择合适的数据挖掘算法。大数据海量信息处理需要分布式计算,分布式计算的机群部署本身就是一项很复杂的工作,此外,很多数据挖掘算法涉及比
在机器学习、人工智能、模式识别及信息论还没有发展形成一门学科和系统理论时,传统的统计学就已经在探寻从数据中发现有价值信息的方法了。以回归分析为例,回归分析是对具有因果关系的影响因素(自变量)和预测
随着数据存储、数据处理技术的发展,人们迫切需要在各种各样的数据中提取出有用的信息。这种将未加工的数据转换为有用信息的过程通常称为知识发现(knowledge discovery in database,KDD)。人们通常把KDD作
在各种新闻和视频中,我们经常听到很多的门,比如艳照门、偷拍门等。这些事件看起来是很突然的,如果处在20世纪80或90年代,这种事件的发生是绝无可能的。这种现象的出现主要是由于近十几年来摄像技术、网络技术
前 言第一部分 基 础 知 识第1章 引言2 1 1 数据挖掘的含义2 1 2 数据挖掘的演变过程3 1 3 数据工具简介41 3 1 Hadoop与MapReduce51 3 2 Pig语言81 3 3 MATLAB编程91 3 4 SAS91 3 5 WEKA121 3
我们畅想一下未来,想象未来社会的样子。未来社会每个人都与多台智能设备绑定,每个人如同一个数据提供商,不停地向网络上传送数据:自己的照片、爱好、欲望、踪迹等。而网络上这些数据也不停地得到反馈:周围的
本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术