读书频道 > 网站 > 网页设计 > 数据挖掘核心技术揭秘
1.2 数据挖掘的演变过程
15-11-10    下载编辑
收藏    我要投稿   

本文所属图书 > 数据挖掘核心技术揭秘

本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术立即去当当网订购

在机器学习、人工智能、模式识别及信息论还没有发展形成一门学科和系统理论时,传统的统计学就已经在探寻从数据中发现有价值信息的方法了。

以回归分析为例,回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析和处理,基于当前数据建立回归方程。当新的样本到来时,把当前自变量输入回归方程,即可以得到预测结果(因变量)。

再比如,贝叶斯定理作为统计理论中的重要理论,在实际使用中取得了很好的效果。这种早在18世纪就被整理得出的理论,已经对后世产生深远影响。

随着信息技术的快速发展,机器学习、人工智能、模式识别及信息论取得了飞速发展,在理论上逐步创新。特别是计算机数据处理技术的飞快发展导致云计算、大数据等领域革新,传统的基于样本抽样的统计学理论的数据挖掘面临挑战。传统统计理论在分析数据上大多数基于样本法,然而随着大数据处理技术的进步,人们已经有能力处理大规模数据。因此,在全样本分析的基础上,融合机器学习、人工智能、模式识别等理论,挖掘有价值的信息成为新的研究与实践应用热点。相比于传统统计学,预测则成为数据挖掘中最活跃的部分。

数据挖掘可以概括为三大类:聚类、分类、回归。

聚类分析是一种原始的分类,属于分组方法,旨在发现不同的簇(或称为类或组),其目的是使得同一簇内的对象尽可能相似,不同簇之间的对象尽可能体现差异性。K近邻、多元分析都属于聚类问题。异常检测属于聚类分析的一个分支,其目的是识别被检测样本的特征是否显著不同于其他样本。通常情况下,这种异常的样本点也叫离群点,因此异常检测也叫离群点检测。

分类问题可被认为是将历史数据按照用户需求进行区分的技术。如果把因变量的值定义为离散的,回归问题就成了分类问题。决策树、基于实例的算法、支持向量机、遗传算法、贝叶斯学习、神经网络都属于分类问题。

回归问题本质上属于分类问题的一个分支,是去除扰动数据影响以得到数据的普遍共性的一种方法。显然,回归和拟合很类似,只是回归问题所分析的是时间序列的数据,而拟合分析的是非时间序列的数据。预测是指根据其他属性的值预测特定属性的值。统计学中的回归分析就是根据自变量(用来预测的属性)的值预测因变量(被预测的属性)的值,回归分析的因变量的值可以是连续性的。卡尔曼滤波是一类典型的回归问题。贝叶斯分析或者支持向量机等技术也可用于回归算法。

在这三种数据挖掘技术中,都需要用到相似度的数学知识。利用相似度进行分析是数据挖掘技术的基石,这种技术单独使用时,可以称为关联分析或关联挖掘,其含义是根据数据发现不同项(特征)之间的联系。推荐系统就是关联分析的一个典型应用。

基于人们对从数据中发现有用知识的迫切需求,数据挖掘被认为是一个新兴的、非常重要的、具有广阔应用前景和富有挑战性的研究领域。数据挖掘已经融汇了众多的学科,如数据库、人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、机器学习、信息检索、神经网络、模式识别、高性能计算机等。数据挖掘是由上述学科相互交叉、相互融合形成的。

由于摄像机和智能便携设备的普及,未来的社会必然是一个海量数据的时代。在未来这个海量数据时代,数据挖掘将成为一种势不可挡的必然趋势。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站