1.统计学的基本概念
总体、个体、样本:把所考察对象的某一个数值指标的全体构成的集合看成总体,构成总体的每一个元素称为个体,从总体中抽出若干个体所组成的集合叫作样本。
随机抽样:抽样时,保证每一个个体都可能被抽到,且每个个体被抽到的机会均等,满足这样条件的抽样为随机抽样。
简单随机抽样:从元素个数为N的总体中,不放回地抽取容量为n的样本,如果每一次抽样时,总体中的各个个体有相同的可能性被抽到,这种抽样方法叫简单随机抽样。
系统抽样:当总体个数很大时,可将总体分成均匀的若干部分,然后按照预先制定的规则从每一部分抽取一个个体得到所需要的样本,这种抽样的方式叫作系统抽样。
分层抽样:当总体由有明显差异的几部分组成时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫作层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫作分层抽样。
三种抽样方法的比较如表2-1所示。
用样本的频率分布估计总体的频率分布。常用频率分布直方图、频率分布折线图、总体密度曲线、茎叶图等统计图表来表示样本数据,观察样本数据的特征,从而估计总体的分布情况。
频率分布(表)直方图的画法步骤:
1)计算极差(用样本数据的最大值减去最小值);
2)决定组数与组距(组数×组距=极差);
3)决定分点;
4)列频率分布表;
5)绘制频率分布直方图。
直方图中各个小长方形面积等于相应各组的频率,所有小长方形面积之和等于1。
频率分布折线图:连接频率分布直方图各个长方形上边的中点,就得到频率分布折线图。
总体密度曲线:随着样本容量的增加,分组的组距不断缩小,相应的频率分布折线图就会越来越接近于一条光滑曲线,这条光滑曲线就叫作总体密度曲线。总体密度曲线精确地反映了一个总体在各个区域内取值的规律。
茎叶图:茎指中间的一列数,叶是从茎的旁边生长出来的数。在样本数据较少时,茎叶图表示数据的效果较好。它的突出优点是:统计图中没有原始数据的损失,所有的数据信息都可以从茎叶图中得到。
2.概率学基本概念
(1)样本空间
定义:随机试验E的所有结果构成的集合称为E的样本空间,记为S={e},称S中的元素e为样本点,一个元素的单点集称为基本事件。
(2)条件概率
条件概率就是事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(AB),读作“在B条件下A的概率”。
联合概率表示两个事件共同发生的概率。A与B的联合概率表示为P(A∩B)或者P(A,B)。
边缘概率是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
在同一个样本空间Ω中的事件或者子集A与B,如果随机从Ω中选出的一个元素属于B,那么这个随机选择的元素还属于A的概率就定义为在B的前提下A的条件概率。从这个定义中,我们可以得出
P(A)被称为A的先验概率。
P(AB)被称为A的后验概率。它表示给定训练数据B后A成立的置信度。后验概率P(AB)反映了训练数据B的影响,而先验概率P(A)是独立于训练数据B的,之所以称为“先验”,也是因为它不考虑任何B方面的因素。
P(AB)与P(BA)的关系如下所示:
(3)全概率公式和贝叶斯公式
全概率公式。假设{Bn:n=1,2,3,…}是一个概率空间的有限或者可数无限的分割,且每个集合Bn是一个可测集合,则对任意事件A有全概率公式:
又因为
Pr(A∩Bn)=Pr(ABn)Pr(Bn)
所以,此处Pr(AB)是B发生后A的条件概率,所以全概率公式又可写作:
在离散情况下,上述公式等于公式:Pr(A)=E(Pr(AN))。但后者在连续情况下仍然成立:此处N是任意随机变量。这个公式还可以表达为:A的先验概率等于A的后验概率的先验期望值。
贝叶斯公式。贝叶斯定理(Bayes’ theorem)是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。通常,事件A在事件B(发生)的条件下的概率与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。
贝叶斯定理实际上是关于随机事件A和B的条件概率和边缘概率的一则定理。
其中,P(AB)是在B发生的情况下A发生的可能性。在贝叶斯定理中,每个名词都有约定俗成的名称:
P(A)是A的先验概率或边缘概率。
P(AB)是已知B发生后A的条件概率(即先有B而后才有A),也由于得自B的取值而被称作A的后验概率。
P(BA)是已知A发生后B的条件概率(即先有A而后才有B),或者称作B的后验概率。
P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant)。
根据这些术语,贝叶斯定理可表述为:后验概率也就是说,后验概率与先验概率和相似度的乘积成正比。另外,比例
有时也被称作标准相似度(standard likelihood),贝叶斯定理可表述为:后验概率=标准相似度×先验概率。
综上,自此便有了一个问题,如何从条件概率推导贝叶斯定理呢?
根据条件概率的定义,在事件B发生的条件下事件A发生的概率是
同样,在事件A发生的条件下事件B发生的概率
整理与合并这两个方程式,可以找到
P(AB)P(B)=P(A∩B)=P(BA)P(A)
这个引理有时称作概率乘法规则。上式两边同除以P(B),若P(B)是非零的,就可以得到贝叶斯定理: