2.4 最小二乘法
最小二乘法有两个主要用途:插值(即曲线拟合)和回归。
回归线:从散点图上看,如果这些点从整体上看大致分布在通过散点图中心一条线附近,则这条线叫作这些数据点的回归线方程,如果是直线,可以记作y=bx+a,其中称b为回归系数。
2.4.1 最小二乘法定义
设有数据(xi,yi),i=0,1,…,m,令
并称r=(r0,r1,…,rm)T为残向量,用φ(x)去拟合y=f(x)的好坏问题变成残量的大小问题。判断残量大小的标准,常用的有下面几种:
确定参数αj(j=0,1,…,n),使残量绝对值中最大的一个达到最小,为最小。
确定参数αj(j=0,1,…,n),使残量绝对值之和达到最小,即为最小。
确定参数αj(j=0,1,…,n),使残量的平方和达到最小,即最小。
第一个和第二个标准很直观,但因为有绝对值,所以实际应用很不方便;而第三个标准既直观,使用又很方便。按第三个标准确定待定参数,得到近似函数的方法,通常称为最小二乘法。
在实际问题中如何选择基函数φj(x)(j=0,1,…,n)是一个复杂的问题,一般要根据问题本身的性质来决定。如果从问题本身得不到这方面的信息,那么通常可取的基函数有多项式、三角函数、指数函数、样条函数等。下面重点介绍多项式的情况。
设基函数取为φj(x)=xj(j=0,1,…,n)。已知列表函数yi=f(xi)(i=0,1,…,m),且n∈m,用多项式pn(x)=a0+a1x+…+anxn去近似f(x),问题是应该如何选择a0,a1,…,an使pn(x)能较好地近似列表函数f(x)。按最小二乘法,应选择a0,a1,…,an,
使得
取最小。