登录| 注册    
收藏  点赞 

最佳线性无偏预测

主要由美国动物育种学家和统计学家亨德森(C.R.Henderson)在20世纪50年代和60年代中提出的家畜育种值的一种估计方法。由于当时计算条件的限制,这个方法并未得到真正的应用,直到70年代,随着计算机技术的飞速发展。这个方法逐渐被用于家畜育种实践中

主要由美国动物育种学家和统计学家亨德森(C.R.Henderson)在20世纪50年代和60年代中提出的家畜育种值的一种估计方法。由于当时计算条件的限制,这个方法并未得到真正的应用,直到70年代,随着计算机技术的飞速发展。这个方法逐渐被用于家畜育种实践中,目前它已成为家畜(尤其是牛)育种值估计的主要方法。

BLUP的基本理论 设有线性混合模型:

最佳线性无偏预测

式中 y是观察值的向量;β是影响y的固定效应的向量;u是影响y的随机效应的向量;X和Z分别是β和u的结构矩阵;e是随机残差效应向量。而且

E(y)=Xβ,E(u)=0,E(e)=0

Var(u)=G,Var(e)=R,CoV(u,e′)=0

Var(y)=ZGZ′+R=V,CoV(y,u′)=ZG

需要对固定效应和随机效应的某一特定线性组合K′β+M′u进行估计(在家畜育种中,这个线性组合常与家畜的育种值有关),并希望这个估计值是:①观察值的线性组合,即估计值应为L′y;②无偏的,即E(L′y)=E(K′β+M′u)=K′β;③最佳的,即估计误差(L′y-K′β-M′u)的方差最小。也即,我们希望找到一个L,使得Var(L′y-K′β-M′u)在E(L′y)=K′β的条件下为最小。这样的估计值称为最佳线性无偏估值。

根据求条件极值的原理,不难求得

L′=V-1ZGM-V-1X(X′V-1X)-(X′V-1ZGM-K)

式中(X′V-1X)-是X′V-1X的一个广义逆矩阵。因而

最佳线性无偏预测

是K′β+M′u的最佳线性无偏估计,其中

最佳线性无偏预测

就是β的广义最小二乘估计值,当y服从正态分布时,它也是β的极大似然估计值,而

最佳线性无偏预测

则是u的最佳线性无偏估计值,在英文文献中,将对随机效应的估计称为预测(prediction)。

估计K′β+M′u的最大困难是,它涉及了对方差协差矩阵V=Var(y)的求逆运算,由于矩阵V的阶数(等于观察值的个数)一般都很大,对它求逆往往十分困难甚至不可能实现,因而此式并没有多大的实用价值。

Henderson的主要贡献在于,他证明了对方程组求解,可有(2)式的(2)式的这个方程组称为混合模型方程组(mixed model equations),它不涉及对矩阵V求逆,而涉及对R和G求逆。对家畜育种的资料来说,通常可假设,其中I为一单位矩阵,为(1)式中的残差方差,或R为一对角分块矩阵,因而R-1的运算不存在任何困难,而对矩阵G则常有其中A为家畜个体间的加性遗传相关矩阵(additive genetic relationship matrix),也称为分子血缘相关矩阵(numerator relationship matrix)为个体效应的方差。在多数情况下,G的阶数比V的阶数要小得多,因而对它求逆比对V求逆要容易。而Henderson还提出了一种由家畜谱系直接构造A-1的简捷方法,这样的计算也就变得十分容易。

最佳线性无偏预测

时,上式可写为

最佳线性无偏预测

其中

设系数矩阵的逆矩阵(当它不满秩时,则它的广义逆矩阵)为

最佳线性无偏预测

则估计值的方差和协方差表示为:

Var(当系数矩阵满秩时)

Var(当系数矩阵不满秩,K′β为可估函数时)

Var=Cov(u,u′)=G-C11

Var=C11

Cov=0

Cov(K′β,u′-u′)=K′C12

BLUP方法的应用

当用半同胞后裔资料估计公畜的育种值时,常有模型

yijkI=hi+gj+Sjk+eijkI

式中 yijkl为后裔的性状观察值;hi为固定环境效应(如牧场效应、年度效应、季节效应等);gj为遗传组(公畜组)固定效应;sjk为公畜组内随机公畜效应;eijkI为随机残差。将这个模型写为矩阵形式有:

y=X1h+X2g+Zs+e

且有(A为公畜间加性遗传相关矩阵),这个模型称为公畜模型(sire model),它主要用于牛的育种中公牛育种值估计,与之对应的混合模型方程组为:

最佳线性无偏预测

其中/h2,h2为性状的遗传力

第j公畜组内第k头公畜的育种值的BLUP估值为2

如要用全同胞后裔的资料估计双亲的育种值时,可有模型:

y=xβ+Zss+Zdd+e

其中β为所有固定效应的向量,s为父亲效应,d为母亲效应,且有

最佳线性无偏预测

其中As和Ad分别为父亲间和母亲间的加性遗传相关矩阵。这个模型称为公畜—母畜模型(sire-dam model),它主要用于猪、禽、鱼类等全同胞后代较多的畜种的育种值估计,与之相应的混合模型方程组为:

最佳线性无偏预测

其中

如果要用个体成绩估计个体本身的育种值则可有模型

y=Xβ+Za+e

其中a为个体的育种值效应,这个模型称为个体动物模型(individual animal model),简称动物模型(animal model)。与相应的混合模型方程组为:

最佳线性无偏预测

其中(1-h2)/h2

用动物模型除了可以估计有观察值的个体本身的育种值外,还可估计个体的父母及所有与个体有血缘关系的亲属的育种值,这时只需将a扩大为包括所有要估计育种值的个体(无论是否有观察值)即可。因而动物模型是最一般化的模型,公畜模型和公畜-母畜模型者可看作是它的特例,它适用于所有家畜育种资料。当然在动物模型下混合模型方程组的求解要比在其他模型下困难。

除了以上三种模型外,还有一些适用于不同情况的模型,如用于有重复观察值时的重复力模型(re-peatability model),为消除公畜的非随机交配而造成的偏差所构造的外祖父模型(maternal grandsire mod-el),用于多性状育种值估计的多性状模型(multiple trait model)等等。总之,BLUP方法的应用是非常灵活的,关键是要根据实际情况的不同构造相应的模型,而后根据混合模型方程组的原理求出各效应的估计值。

关于BLUP方法的几点说明

①BLUP估计是以线性混合模型为基础,因而所谓无偏和最佳也是针对所使用的特定模型而言的,如果所用的模型是有错误的,所得的估计值也就不会是真正无偏和最佳的。虽然真实的模型往往是未知的。但仍应根据生物和遗传学的知识使模型尽量地反映真实情况,同时还应考虑不要使模型过于复杂而使计算变得十分困难或使估计误差的方差增大。②BLUP方法要求模型随机效应的方差或残差方差与其他随机效应的方差的比值已知,而这在实际情况中往往是不可能的。如果用方差或方差的比值的估计值来代替真值,所得到的估计值也就不再是真正的BLUP值。尽管如此,在多数情况下,在家畜育种中,可根据经验得到方差或方差比值的较为精确的估计值,因而仍可得到较为精确的育种值估计值(虽然不是真正的BLUP值)。同时,虽然用估计值代替真值使BLUP法的效率下降,但它仍比其他方法精确性要高。③BLUP法的最佳是在线性和无偏意义下的最佳,事实上可能存在比BLUP值更好的非线性或有偏估计值,但由于这种估计值很难找到,或由于分析计算上过于复杂,所以还很少有这方面的研究。