2.2 相似度
距离和相关系数的本质都是相似度。距离用来表示两个(组)散乱数据间的相似度;而相关系数用来表示两组近似线性的数据的相似度。
2.2.1 期望与方差
1.数学期望
如果X是在概率空间(Ω,P)中的一个随机变量,那么它的期望值E[X]的定义是:
并不是每一个随机变量都有期望值的,因为有的时候这个积分不存在。如果两个随机变量的分布相同,则它们的期望值也相同。
在概率论和统计学中,数学期望分两种(依照前面的相关内容也可以得出),一种为离散型随机变量的期望值,一种为连续型随机变量的期望值。
离散性随机变量的期望值(数学期望或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。换句话说,期望值是随机试验在同样的机会下重复多次的结果计算出的等同“期望”的平均值。
例如,掷一枚六面骰子,得到每一面的概率都为1/6,故其期望值是3.5,计算如下:
承上,如果X是一个离散的随机变量,输出值为x1,x2,…和输出值相应的概率为p1,p2,…(概率和为1),若级数绝对收敛,那么期望值E[X]是一个无限数列的和:
上面掷骰子的例子就是用这种方法求出期望值的。而对一个连续型随机变量来说,如果X的概率分布存在一个相应的概率密度函数f(x),若积分绝对收敛,那么X的期望值可以计算为:
实际上,此连续随机型变量的期望值的求法与离散随机变量的期望值的算法同出一辙,由于输出值是连续的,只不过是把求和改成积分。
2.方差与标准差
(1)方差
在概率论和统计学中,一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离。方差是从高斯发明的最小二乘法所引申出的一个概念,2.4节将描述其相似之处。
一个实随机变量的方差也称为它的二阶矩或二阶中心动差,恰巧也是它的二阶累积量。方差的算术平方根称为该随机变量的标准差。
其定义为:如果E(X)是随机变量X的期望值(平均数),则称Var(X)=E((X-E(X))2)=E(X2)-E(X)2为随机变量X的方差。
其中,N为样本总数。
针对离散型随机变量和连续型随机变量,方差如下所示:
针对离散型随机变量X,分布律为:P(X=xi)=pi,i=1,2,…
针对连续型随机变量X,其概率密度为f(x),
(2)标准差
标准差(Standard Deviation)在概率统计中最常用作统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。
简单来说,标准差是一组数值自平均值分散开的程度的一种测量观念。一个较大的标准差代表大部分的数值和其平均值之间差异较大;一个较小的标准差代表这些数值较接近平均值。例如,两组数的集合{0,5,9,14}和{5,6,8,9}其平均值都是7,但第二个集合具有较小的标准差。
前面说过,方差的算术平方根称为该随机变量的标准差,因此随机变量的标准差定义为:
注意,并非所有随机变量都具有标准差,因为有些随机变量不存在期望值。如果随机变量X为x1,…,xn具有相同概率,则可用上述公式计算标准差。
上述方差、标准差等相关内容可用如下内容总结:
设X是一个随机变量,若E{[X-E(X)]2}存在,则称其为X的方差,记为D(X)或Var(X),即
D(X)=Var(X)=E{[X-E(X)]2}
将D(X)记为σ(X),称为X的标准差或均方差,它是与随机变量X具有相同量纲的量。
(3)样本标准差
在真实世界中,除非在某些特殊情况下,否则找到一个总体的真实标准差是不现实的。大多数情况下,总体标准差是通过随机抽取一定量的样本并计算样本标准差估计的。数据海量时,想计算总体海量数据的标准差很难,可以抽取其中一些样本作为抽样代表。
而从一大组数值X1,…,XN当中取出一个样本数值组合x1,…,xn,n<N,进而,我们可以定义其样本标准差为:
样本方差s2是对总体方差σ2的无偏估计。之所以s中分母为n-1,是因为(xi-x)的自由度为n-1(自由度是指样本中的n个数都是相互独立的,从其中抽出任何一个数都不影响其他数据,所以自由度就是估计总体参数时独立数据的数目,而平均数是根据n个独立数据来估计的,因此自由度为n),这是由于存在约束条件
(4)协方差矩阵
由上,我们已经知道协方差是衡量两个随机变量的相关程度。且随机变量Xi,Xj之间的协方差可以表示为
故根据已知的样本值可以得到协方差的估计值如下:
可以进一步地简化为:
如此,便引出了所谓的协方差矩阵: