登录| 注册    
收藏  点赞 

遗传距离

衡量生物群体间遗传差异的指标。遗传距离可以用质量性状也可用数量性状来衡量。遗传距离的估计在探索品种起源、分析群体间亲缘关系、绘制系统发育树和预测杂种优势、指导亲本选配等方面有重要作用。估计的方法主要有Nei法、距离系数法、枢轴凝聚法和主成分法等。Nei法由奈(M.Nei)于1972年提出。它利用属性类别分布频率来计算生物群体间用质量性状衡量的遗传距离。计算公式为: 遗传距离 式中

衡量生物群体间遗传差异的指标。遗传距离可以用质量性状也可用数量性状来衡量。遗传距离的估计在探索品种起源、分析群体间亲缘关系、绘制系统发育树和预测杂种优势、指导亲本选配等方面有重要作用。估计的方法主要有Nei法、距离系数法、枢轴凝聚法和主成分法等。

Nei法

由奈(M.Nei)于1972年提出。它利用属性类别分布频率来计算生物群体间用质量性状衡量的遗传距离。计算公式为:

遗传距离

式中 D为遗传距离,ln为自然对数,xi、yi为两个群体第i种属性类别的分布频率。

距离系数法

距离系数主要有以下几种:

Gower 距离 第i个群体与第j个群体的Gower距离为:

遗传距离

式中 xik、xjk表示第i或j个群体(i,j=1,2,…,n)第k个性状(k=1,2,…,p)的平均数。Rk为第k个性状n个数据的极差。Gower距离的数值在[0,1]范围内,1表示最大相异,受极端值影响较小。

Canberra距离

第i个群体与第j个群体的Can-berra距离为:

遗传距离

式中 r为两个相减数据同时为0的个数。Canberra距离减弱极端值的影响能力强。

欧氏距离

第i个群体与第j个群体的欧氏距离为:

遗传距离

欧氏平方距离

即欧氏距离的平方

遗传距离

欧氏距离与欧氏平方距离没有确定的上界,受数据值的大小影响很大。后者更能保证性状数据的可加性,应用更为广泛。若各性状数据的单位不同、大小相差悬殊,可先对每个性状用极差、离差或标准差标准化,然后再求群体间的距离。

马氏距离

第i个群体与第j个群体的马氏距离为:

遗传距离

式中 xi、xj为数据矩阵中第i、第j行向量,(xi-xjT是行向量(xi-xj)转置而得的列向量;Σ-1是p个性状间的协方差矩阵Σ的逆矩阵。这种距离克服了性状间相关的影响。当性状间不相关,且每个性状的方差为1时,马氏距离即为欧氏距离,所以它是欧氏距离的推广,又称为广义距离。

距离系数除以上五种外,还有绝对值距离、Bray-Curtis距离、弦距离、Minkowski距离、切比雪夫距离等,它们或者受极端值影响大或者受性状相关的影响大,应用较少。

上述利用观察值平均数计算的距离系数不能真正表示群体数量性状间的遗传距离。这是因为:①观察值平均数包含有环境因素的影响。②各性状间常常存在一定的相关性。③未采用方差分析法先对各性状是否存在遗传差异进行检验。针对这些问题,自20世纪50年代以来,遗传育种科学家用多元统计方法陆续提出了估计群体数量性状遗传距离的枢轴凝聚法与主成分法。

枢轴凝聚法

由雷欧(Rao)于1952年提出,其基本步骤是:

第一步

进行综合效应差异显著性检验。首先根据n个群体、户个性状的r次重复观测值对每一性状进行方差分析,对每二个性状进行协方差分析,求出误差方差与协方差、群体方差与协方差,把误差方差与协方差与群体方差、协方差分别相加从而求出误差协方差矩阵W、误差+群体协方差矩阵S。

然后利用枢轴凝聚法求出误差协方差矩阵的枢轴凝聚元素Aii(i=1,2,…,户)、对数据进行转换的数值Gtj(i,j=1,2,…,户);求出误差+群体协方差矩阵的枢轴凝聚元素A′ii(i=1,2,…,p)。

再求出误差协方差矩阵行列式W和误差+群体协方差矩阵的行列式|S|:

遗传距离

最后利用统计量V(stat.)进行综合效应差异显著性检验

遗传距离

式中 h为误差+群体自由度;q=n-1为群体自由度。

因为V(stat.)近似服从自由度为pq的X2分布,可对V(stat.)进行X2检验;若自由度pq>100,可转换成标准正态分布进行u检验:

遗传距离

或者进行F检验

遗传距离

经X2检验或F检验显著,表明n个群体p个性状的综合效应间差异显著,可进一步求各群体间的遗传距离

第二步

对相关性状进行转换,计算遗传距离。转换的目的是把相关性状转换成非相关综合性状转换公式为:

遗传距离

式中 yij为转换后第i个群体第j个综合性状的平均数

第i个群体与第j个群体间的遗传距离为:

遗传距离

因为服从自由度为p的X2分布,可对遗传距离的显著性进行X2检验。

此法所求出的遗传距离进行了p个性状综合效应的差异显著性检验,克服了性状相关的影响,能较好地表示群体数量性状间的遗传差异,且可对遗传距离D2进行显著性检验。不足之处是包含有环境因素的影响。

利用遗传相关系数的主成分法

刘来福于1979年对此法作出了详细阐述,其基本步骤为:

第一步

对n个群体、p个性状、r次重复观测值进行方差分析,选留有显著遗传差异的性状(性状数仍记为p)。对选留的p个性状求出遗传方差、遗传协方差的估计值。在畜禽遗传育种研究中,对第j个性状进行方差分析时,常采用如下模型:

遗传距离

(i=1,2,…,n;j=1,2,…,p;k=1,2,…,r)

式中 Xijk为第i个群体第j个性状第k次观测值;μj为第j个性状的总平均数;gij为第i个群体第j个性状的基因型效应,服从N(0,,eijk为随机误差,相互独立,且都服从N(0,σ2)。

在模型式(12)下,第j个性状的方差分析,第i、j两性状的方差分析一般形式为:

附表

可求得的估计值

遗传距离

若各群体重复数ri不等,则上表中的误差自由度为:

遗传距离

并将上表中的r改为r0

遗传距离

第二步

将n个群体p个性状的基因型值用标准差标准化,求标准化基因型值的协方差矩阵即遗传相关系数矩阵。

对于模型式(12),基因型效应gij的估计值为:

遗传距离

标准化基因型值的估计值为:

遗传距离

式中

遗传距离

以每一个群体p个性状的标准化基因型值作为列向量,构成矩阵G*

遗传距离

然后利用遗传标准差、遗传协方差的估计值求遗传相关系数的估计值:

遗传距离

简记为rij,得遗传相关系数矩阵R,R为一实对称矩阵。

遗传距离

第三步

利用Jacobi法求遗传相关系数矩阵R的特征根与特征向量。设所求的特征根为:

λ1≥λ2≥…≥λp

由相应的特征向量l1,l2,…,lp为列向量组成的正交矩阵:

遗传距离

遗传距离

利用式(23)可计算出各群体的主成分值。各主成分对总变异的贡献率为:

遗传距离

它表示各主成分综合原性状能力的大小。由于各主成分由特征向量与原p个性状计算,是原p个性状的线性组合,组合系数为特征向量的各个分量,所以其主成分相应的特征向量中各个分量的绝对值与符号反映了各个性状对该主成分作用的大小和性质。于是在育种工作中可通过各特征向量分量的分析,从生物学角度给各主成分赋予一定的实际意义。

第四步

计算用标准差标准化的主成分值。取前户′个特征根,使其对总变异的累计贡献率p

遗传距离

按下式计算n个群体p′个标准化主成分值

遗传距离

第五步 计算群体间的遗传距离

遗传距离

遗传距离

(i,j=1,2,…,n;i<j)

此法求出的遗传距离仅考虑有显著遗传差异的性状,所包含的环境因素影响小,亦克服了性状相关的影响,能更好地表示群体间的遗传差异。其不足之处是当利用遗传方差,遗传协方差的估计值计算遗传相关系数时,有一定误差,有时出现|rij|>1或不能保证遗传相关系数矩阵是正定的,以至于无法进行进一步计算分析。尽管如此,仍应首先采用此法计算遗传距离,在出现了|rij|>1或R非正定时,再采用别的方法。

利用基因型值相关系数的主成分法

此法由刘垂圩等于1985年针对利用遗传相关系数的主成分法的不足提出。其不同之点在于:不利用遗传方差、协方差的估计值估算遗传相关系数而利用基因型值估计值求相关系数。对模型式(12)基因型值的估计值为:

遗传距离

(i=1,2,…,n;j=1,2,…,户)

n个群体、户个性状的基因型值估计值数矩阵为:

遗传距离

利用式(28)中的数据求每两个性状基因型值估计值间的相关系数rij,得到基因型值相半系数矩阵R。其他步骤皆同于前法。此法的优点在于所求得的基因型值相关系数矩阵R具有正定性,保证了能进行进一步的计算分析。不足之处是计算所得的遗传距离含有一部分环境因素的影响。

尽管数量性状遗传距离与杂交优势间存在密切的数量关系(在一定范围内呈正相关),是选配亲本进行杂交组合的重要依据,但这不是唯一的依据,应结合育种学选配亲本的一般原则综合考虑。在实际使用时,往往与聚类分析结合进行。