等位基因的组合数目

假定某种形状(比如豌豆花的颜色)由一对等位基因控制,其中显性基因用字母A表示,隐性基因用字母a表示。显而易见,我们一共有三种可能的基因型:AA, Aa, aa,分别对应红色、粉色和白色。如果某个等位基因一共有n种可能的变异,即:

(1)   \begin{equation*} A_1, A_2, A_3, ..., A_n \end{equation*}

那么一共有多少种可能的基因型呢(注意基因型A_nA_mA_mA_n 是一样的)?

这个问题看上去很简单,但是我自己却迷惑了很长一段时间。最后我终于认识到:在阅读 William Feller 老爷爷的概率书的这段时间里,自己在经过了相当多的训练之后,已经习惯性的去考虑样本空间内每一个样本的概率是相等的情形了,从这一点讲,那么很明显我们一共有 n \times n 种基因组合的结果。但是问题是这些组合虽然每一个出现的概率相等,但是其中却有一些重复;等到我们把重复的合并以后,剩下的样本出现的概率却不相等了。具体来讲,纯合的基因型:

(2)   \begin{equation*} (A_1, A_1),  (A_2, A_2), (A_3, A_3), ...,  (A_n, A_n) \end{equation*}

要比杂合的基因型

(3)   \begin{equation*} (A_1, A_2),  (A_1, A_3), (A_1, A_4), ...,  (A_{n-1}, A_n) \end{equation*}

出现的概率要低。具体到豌豆花的例子,也就是白色和红色出现的概率分别是 25%,而粉色出现的概率是50%。在领悟到这一点之后,前面给出的题目就很容易计算了:当某个等位基因一共有n种可能的变异的时候,我们可以把所有的可能的组合排成一个 n \times n的表格,其中对角线上的基因型是纯合的,一共有n个,而非对角线上的基因型是杂合的,一共有 n^2 - n 种。考虑到杂合的基因型每种都会出现两次,那么所有不同的基因型一共有:

(4)   \begin{equation*} \frac{n^2 - n}{2} + n = \frac{n(n+1)}{2} \end{equation*}

这和William Feller 老爷爷书中给出的答案完全一致。