登录| 注册    
收藏  点赞 

线性回归

处理依变数y随自变数x的改变而呈线性改变的资料的统计方法。又称直线回归。设在x变数可能取值的区间内,其任一值上都分布着y变数的一个条件正态总体,即这些总体具有相同的方差,但平均数μy/x则是以x的取值为条件,并随x的改变而呈线性改变,有其线性回归模型为:μy/x=α+βx式中 α是x=0时y条件总体的平均数,亦即直线在y轴上的截距,称为总体回归截距。

处理依变数y随自变数x的改变而呈线性改变的资料的统计方法。又称直线回归。设在x变数可能取值的区间内,其任一值上都分布着y变数的一个条件正态总体,即这些总体具有相同的方差,但平均数μy/x则是以x的取值为条件,并随x的改变而呈线性改变,有其线性回归模型为:

μy/x=α+βx

式中 α是x=0时y条件总体的平均数,亦即直线在y轴上的截距,称为总体回归截距。β是x每增加一个单位量时,y条件总体平均数μy/x将要增加(β>0)或减少(β<0)的单位量数,称为总体回归系数或斜率。下图绘出α和β不同取值时μy/x=α+βx在第Ⅰ象限的三种图象。

线性回归方程 μy/x=α+βx的图象

对y变数的每一个观察值yi而言,尚具有随机误差ε1,故其线性可加模型为:

y1=μy/x+ε1=α+βx+ε1

而总体容量为N的方差则为:

线性回归

当资料是容量为n的样本时,相应的回归方程及其方差为:

线性回归

线性回归

式中、a和b依次为μy/x、α和β的样本估值;称离回归方差,为的样本估值。的根值sy/x称离回归标准误或估计标准误,其中的Σ(y-2称离回归平方和。

根据回归的定义,上述统计数a和b需满足:

线性回归

分别对a和b求偏导数,并令之为0后可解得:

线性回归

而离回归平方和则为:

线性回归

以上的分别为x和y变数的样本平均数

一个样本的线性回归方程是否属真,即其总体的y变数是否确实随x的改变而呈线性改变,需要经过统计假设测验,以提供概率保证。所作假设为H0∶β=0(即总体无线性回归关系),HA∶β≠0(现有样本属于有线性回归关系的总体)。这可由F或测验作出。在应用F测验时:

线性回归

该F值具自由度ν1=1,ν2=(n-2)。在应用t测验时

线性回归

该t值具自由度(n-2)。只有在所得F>F0.05或|t|>t0.05时,才能否定H0,推断y和x是有显著线性关系。

线性回归方程在描述y依x的关系和由x预测y方面,已有相当广泛的应用。但农作物试验研究中的大量线性回归问题,都是在x变数可能取值的某一区间内,y依x的数量关系近似于线性,完全符合线性回归模型的事例是很罕见的。因此,即使所得的样本线性回归方程为极显著,一般也只能在x变数的观察区间之内应用,不宜外推。