读书频道 > 数据库 > 其他综合 > 数据挖掘核心技术揭秘
2.1.2 随机变量及其分布
2015-11-10 14:47:49     我来说两句 
收藏    我要投稿   

本文所属图书 > 数据挖掘核心技术揭秘

本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术  立即去当当网订购

1.随机变量

给定样本空间(S,F),其上的实值函数X:S→R称为(实值)随机变量。

如果随机变量X的取值是有限的或者是可数无穷尽的值,则称X为离散随机变量(即此类随机变量是间断的)。

X={x1,x2,x3,…}

如果X由全部实数或者由一部分区间组成,则称X为连续随机变量,连续随机变量的值是不可数及无穷尽的(即此类随机变量是连续的、不间断的):

-∞<a<b<∞

也就是说,随机变量分为离散型随机变量和连续型随机变量,当要求随机变量的概率分布的时候,要分别处理之,如:

针对离散型随机变量而言,一般以加法的形式处理其概率和。

而针对连续型随机变量而言,一般以积分形式求其概率和。

再换言之,对离散型随机变量用求和得全概率,对连续型随机变量用积分得全概率。

2.随机变量分布函数

针对随机变量X,对应变量x,则P(X≤x)应为x的函数。如此便引出了分布函数的定义。


定义:随机变量X,对任意实数x,称函数F(x)=P(X≤x)为X的概率分布函数,简称分布函数。

F(x)的几何意义如图2-1所示。

且对于任意实数x1,x2(x1<x2),有P{x1<X≤x2}=P{X≤x2}-P{X≤x1}=F(x2)-F(x1)。

同时,F(x)有以下几点性质:

0≤F(x)≤1

F(x)单调不减,且F(-∞)=0,F(+∞)=1

∵0≤P(x1<X≤x2)=F(x2)-F(x1)

F(x)右连续,即F(x+0)=F(x)

以下针对离散型随机变量和连续型随机变量分别描述其重要的分布。

(1)离散型随机变量及其分布

取值至多可数的随机变量为离散型随机变量。概率分布(分布律)为


 

0-1分布。若X的分布律为:


 

同时,p+q=1,p>0,q>0,则则称X服从参数为p的0-1分布,或两点分布。

此外,0-1分布的分布律还可表示为:X~0-1(p)或B(1,p)

P(X=k)=pk(1-p)1-k, k=0,1

我们常说的抛硬币实验便符合此0-1分布。

二项分布。二项分布是n个独立的是/非试验中成功次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为贝努利试验。例如,独立重复抛n次硬币,每次只有两个可能的结果:正面和反面,概率各占1/2。

设A在n重贝努利试验中发生X次,则


 

并称X服从参数为p的二项分布,记为:

X~B(n,p)

泊松分布。泊松分布(Poisson分布)是一种统计概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)于1838年发表。


若随机变量X的概率分布律为


 

称X服从参数为λ的泊松分布,记为:

X~π(λ)

在泊松分布中,其数学期望与方差相等,都为参数λ。

在二项分布的伯努利试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ=n p比较适中,则事件出现次数的概率可以用泊松分布来逼近。事实上,二项分布可以看作泊松分布在离散时间上的对应物。证明如下。

首先,回顾e的定义:


 

二项分布的定义:


 

如果令p=λn,n趋于无穷时P的极限:


 

上述过程表明:泊松分布可以看成是二项分布B(n,p)在np=λ,n→∞条件下的极限分布。

最大似然估计。给定n个样本值ki,希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值,列出对数似然函数:


 

对函数L取相对于λ的导数并令其等于零:


 

解得λ从而得到一个驻点(stationary point):


 

检查函数L的二阶导数,发现对所有的λ与ki大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:


 

(2)连续型随机变量及其概率密度

定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x有:


 

则称X为连续型随机变量,其中f(x)称为X的概率密度函数,简称概率密度。连续型随机变量的概率密度f(x)有如下性质:


 

且如果概率密度函数fX(x)在一点x上连续,那么累积分布函数可导,并且它的导数为F′X(x)=fX(x)。如图2-2所示。


 


 

三种连续型随机变量的分布如下。

均匀分布。若连续型随机变量X具有概率密度


 

则称X在区间(a,b)上服从均匀分布,记为X~U(a,b)。

易知,f(x)≥0,且其期望值为(a+b)/2。

指数分布。若连续型随机变量X的概率密度为


 

其中,λ>0为常数,则称X服从参数为λ的指数分布。记为

X~Exp(λ)或X~E(λ)

正态分布。在实践过程中,测量值和真实值总是存在一定的差异,这个不可避免的差异即误差,而误差的出现或者分布是有规律的,这种规律通常和钟形曲线类似,就是一个在均值两侧对称,在远离均值的地方分布密度会降低很多,而在靠近均值的地方,分布密度很大。用数学语言来说,就是这个分布的均值为μ、标准差为σ,即X~N(μ,σ2),且x在μ的两端呈钟形分布,在取值区间上总概率为1。猜想一下,这个概率密度函数最简单的形式是什么?

我们知道一般我们用y=e-x来形容一种衰减分布,比如原子辐射的衰减或者素数的分布,那么用这个函数形式来表示上述概率密度函数,最简单的形式如下:


 

因为这个分布公式最先由高斯给出,我们称这样的分布为高斯分布(或正态分布)。

正态分布的数学期望值或期望值等于位置参数μ,决定了分布的位置;其方差σ2的开平方,即标准差σ等于尺度参数,决定了分布的幅度。



 

正态分布有以下几点性质:


 

正态分布的概率密度曲线则如图2-3所示。

当固定尺度参数σ,改变位置参数μ的大小时,f(x)图形的形状不变,只是沿着x轴作平移变换,如图2-4所示。

而当固定位置参数μ,改变尺度参数σ的大小时,f(x)图形的对称轴不变,形状在改变,σ越小,图形越高越瘦,σ越大,图形越矮越胖。如图2-5所示。


 

可以看出,在正态分布中,称μ为位置参数(决定对称轴位置),而σ为尺度参数(决定曲线分散性)。同时,在自然现象和社会现象中,大量随机变量服从或近似服从正态分布。

而通常所说的标准正态分布是位置参数μ=0,尺度参数σ=1的正态分布,记为:


 

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:2.1.1 基本概念
下一篇:2.2.1 期望与方差
相关文章
图文推荐
3.3.2 拓展统计特征
3.3.1 基本统计特征
3.2.6 相关性分析
3.2.5 贡献度分析
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站