读书频道 > 网站 > 网页设计 > 数据挖掘核心技术揭秘
概述
15-11-10    下载编辑
收藏    我要投稿   

本文所属图书 > 数据挖掘核心技术揭秘

本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术立即去当当网订购

数据挖掘的数学基础主要有概率论与数理统计、矩阵理论、线性代数等。本章首先介绍概率统计的基础知识,其次介绍从概率统计中引申出的各种相似度计算方法,然后介绍矩阵计算的相关理论,最后介绍一种与线性代数有关的重要方法——最小二乘法。

概率统计。由于目前的数据一般都是离散数据,所以概率统计的知识往往是数据挖掘的基础,比如概率统计是相似度(如标准欧式距离、马氏距离、相关系数等)计算的基础。同样,概率统计也是很多学习算法的基础,比如贝叶斯学习,或用于训练贝叶斯网络的最大期望算法(Expectation Maximization Algorithm,通常简称EM算法)。

相似度计算。相似度计算是各种数据挖掘算法的主要数学基础。比如聚类算法中往往是利用数据间的彼此距离或者相关系数进行计算的。基于实例的学习中的K近邻算法及关联分析也是利用距离或相关系数作为数据基础的。各种推荐算法在本质上只是某一种计算相关系数的方法而已。

矩阵计算。社会如同一张网,Internet也是一张网,我们的道路关系也是一张网,文本中单词的关系也是一张网。分析这些网需要研究者具备图论的知识,从实施层面来说,需要研究者具备矩阵计算的知识。只要想到谷歌或百度是基于稀疏矩阵的计算而建立的,三维世界也是基于矩阵计算的知识而建立的,那么再怎么重视矩阵计算的重要性都不过分。从具体的数据挖掘技术层面上来说,支持向量机、卡尔曼滤波或者神经网络算法在本质上都需要利用矩阵计算的知识。同样,如果没有掌握矩阵计算的知识,也就没有办法掌握奇异值分解(SVD分解)的精髓。

最小二乘法。最小二乘法通过最小化误差的平方和来寻找最佳的函数匹配。最小二乘法与方差等统计概念一脉相承,也是回归或拟合等问题的数学基础。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:1.3 功能
下一篇:1.5 小结
相关文章
图文推荐
JavaScript网页动画设
1.9 响应式
1.8 登陆页式
1.7 主题式
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站