数据挖掘的数学基础主要有概率论与数理统计、矩阵理论、线性代数等。本章首先介绍概率统计的基础知识,其次介绍从概率统计中引申出的各种相似度计算方法,然后介绍矩阵计算的相关理论,最后介绍一种与线性代数有关的重要方法——最小二乘法。
概率统计。由于目前的数据一般都是离散数据,所以概率统计的知识往往是数据挖掘的基础,比如概率统计是相似度(如标准欧式距离、马氏距离、相关系数等)计算的基础。同样,概率统计也是很多学习算法的基础,比如贝叶斯学习,或用于训练贝叶斯网络的最大期望算法(Expectation Maximization Algorithm,通常简称EM算法)。
相似度计算。相似度计算是各种数据挖掘算法的主要数学基础。比如聚类算法中往往是利用数据间的彼此距离或者相关系数进行计算的。基于实例的学习中的K近邻算法及关联分析也是利用距离或相关系数作为数据基础的。各种推荐算法在本质上只是某一种计算相关系数的方法而已。
矩阵计算。社会如同一张网,Internet也是一张网,我们的道路关系也是一张网,文本中单词的关系也是一张网。分析这些网需要研究者具备图论的知识,从实施层面来说,需要研究者具备矩阵计算的知识。只要想到谷歌或百度是基于稀疏矩阵的计算而建立的,三维世界也是基于矩阵计算的知识而建立的,那么再怎么重视矩阵计算的重要性都不过分。从具体的数据挖掘技术层面上来说,支持向量机、卡尔曼滤波或者神经网络算法在本质上都需要利用矩阵计算的知识。同样,如果没有掌握矩阵计算的知识,也就没有办法掌握奇异值分解(SVD分解)的精髓。
最小二乘法。最小二乘法通过最小化误差的平方和来寻找最佳的函数匹配。最小二乘法与方差等统计概念一脉相承,也是回归或拟合等问题的数学基础。