读书频道 > 数据库 > 其他综合 > 数据挖掘核心技术揭秘
2.4.2 回归
2015-11-10 16:44:42     我来说两句 
收藏    我要投稿   

本文所属图书 > 数据挖掘核心技术揭秘

本书包括五部分内容。第一部分(第1~3章)涉及数据挖掘技术的基础知识,介绍数据挖掘的定义、数据挖掘工具及应用领域,数据挖掘的数学基础内容,以及海量数据挖掘处理技术。第二部分(第4~5章)分别从聚类技术  立即去当当网订购

所谓的回归就是一种对时间序列的离散数据的拟合,同拟合曲线要达到的效果相同,也使用最小二乘估计(Least Square Estimate,LSE),使得回归曲线(即拟合曲线)与离散数据的误差的平方和最小。之所以称为回归曲线,除了用途不同(拟合用于美观性的画线用途,回归用于时间序列的数据挖掘),还因为离散数据和拟合曲线间的距离往往比较大,再称为拟合就有点不太合适了。

1.(xi,yi)的残差


 

2.残差图

利用图形分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号或身高数据或体重估计量等,这样作出的图形称为残差图。

说明如下:

作残差图时,纵坐标为残差,横坐标可以选为编号、样本数据或估计值等,但分析出的结果是一致的。

残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适;带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。

3.残差分析

在研究两个变量间的关系时,首先要根据散点图粗略判断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。

4.相关系数

已知相关系数
的值就是残差平方和的最小值,m的大小就能刻画变量x、y的线性相关的程度,m越小,变量x、y的线性相关程度就越强;m越大,变量x、y的线性相关程度就越弱。但是,m是一个有单位的量,同时m受样本容量的影响很大。为了使不同的样本和不同的样本容量的数据有一个统一的评判标准,我们选择r来刻画变量x、y的线性相关程度,r叫作相关系数,它是一个没有单位的量,并且无论样本容量多大,总有-1≤r≤1,所以用r来刻画变量x、y的线性相关程度显得更方便一些。r越大,m的值就越小,两个变量的线性相关性就越强,r越小,m的值就越大,两个变量的线性相关性就越弱。

相关指数R2:常用刻画回归的效果,R2越大,残差平方和的值就越小,即模型模拟的效果越好;R2越小,残差平方和的值就越大,即模型模拟的效果越差。R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好。例如,用于解释女大学生身高的相关系数R2=0.64,表明“女大学生的身高解释了64%的体重变化”,或者说“女大学生的体重差异有64%是由身高引起的”。若R2=1,则,样本数据(xi,yi),i=1,2,…,n,全部落在直线y=bx+a上,这时变量x、y的关系已经不是相关关系而是函数关系y=bx+a,所以函数关系是相关关系的一种极限状态,是一种特殊的相关关系。

相关系数与相关指数的关系。定理:在一元线性回归模型中,R2=r2。其中r是相关系数,R2是相关指数。

5.回归分析需注意的问题

回归方程只适用于所研究的样本的总体。

所建立的回归方程一般都有时间性。

样本的取值范围会影响回归方程的适用范围。

不能期望回归方程得到的预报值就是预报变量的精确值。事实上,它是预报变量的可能取值的平均值。

6.建立回归模型的步骤

1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量。

2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)。

3)由经验确定回归方程的类型(如我们观察到数据成线性关系,则选用线性回归方程y=bx+a)。

4)按一定规则估计回归方程中的参数(如最小二乘法)。

5)得出结果后分析残差图是否有异常(个别数据对应残差过大或残差呈现不随机的规律性等)。若存在异常则检查数据是否有误或模型是否合适等。

需要注意的是,线性回归方程中的截距和斜率都是通过样本估计出来的,存在随机误差,这种误差可以导致预测结果的偏差。另外,我们选用的线性模型只是一种近似模型。

7.非线性回归

研究两个变量的关系,我们常常根据实验数据作出散点图。类似于两个变量的线性相关关系。观察散点图中点的分布,从整体看如果大致不在某一条直线附近,我们就称这两个变量之间不具有线性相关关系。

当回归方程不是形如y=bx+a时,称为非线性回归方程。

变量的线性相关关系用线性函数y=bx+a来表示,其图形是直线,研究起来比较方便些,但是在许多自然科学中所遇到的变量关系并不都是像线性函数关系那样简单。因此,人们在有些情况下常设法用变量代换法,把较复杂的函数化为线性函数,把曲线化为直线,以便对函数进行计算和研究。

这就是所谓函数的线性化问题。常遇到的幂函数和指数函数线性化问题介绍如下:

将幂函数y=Axm(A为正的常数,x和y取正值)化为线性函数。

如果将y=Axm两边取对数,则有lgy=mlgx+lgA,令u=lgy,v=lgx,lgA=b,代入上式,得u=mv+b,其中m和b是常数。这是u、v的线性函数。如果以u为纵坐标,v为纵坐标,则u=mv+b的图形就是一条直线。

将指数函数y=cax(c>0,a>0常数)化为线性函数。

将y=cax两边以10为底取对数,有lgy=xlga+lgc,令lgy=u,lga=k,lgc=b,得u=kx+b。其中,k和b是常数,这就是u为x的线性函数,它的图形是直线,与幂函数不同的是x仍保持原来的,只是y用其对数lgy代替。

点击复制链接 与好友分享!回本站首页
分享到: 更多
您对本文章有什么意见或着疑问吗?请到论坛讨论您的关注和建议是我们前行的参考和动力  
上一篇:2.4.1 最小二乘法定义
下一篇:2.4.3 参数的最小二乘法估计
相关文章
图文推荐
3.3.2 拓展统计特征
3.3.1 基本统计特征
3.2.6 相关性分析
3.2.5 贡献度分析
排行
热门
文章
下载
读书

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训
版权所有: 红黑联盟--致力于做最好的IT技术学习网站