家里有两个男孩的概率是多大?

这道概率的题目我以前在知乎上看见人讨论过,当时的背景是量子力学中概率问题。最近又在 William Feller 老爷爷的书中看到了这道题目。经典的概率已经很难了,量子力学中的概率就更是违反直觉。但是无论如何,我还是反对很多人故弄玄虚,把本来很清楚的问题搞得越来越糊涂,相比之下,老爷爷的书讲得很清楚。下面讲一讲这道问题和我的理解。

考虑所有有两个孩子的家庭,假定我们已经知道家里至少有一个男孩,那么这个家里有两个男孩的概率是多大?

如果每个孩子是男是女的概率相等,那么两个孩子的家庭一共有以下四种可能的基本情况:

  • 男孩,男孩
  • 男孩,女孩
  • 女孩,男孩
  • 女孩,女孩

这四种基本情况的概率是相等的,都是 0.25,也就是说家里有两个男孩的概率是0.25。现在我们给出了条件:家里至少有一个男孩。这个条件过滤掉了两个女孩这种基本情况,只剩下三种基本情况,因此家里有两个男孩的概率变为\dfrac{1}{3}。用概率论的术语来描述的话,两个孩子都是男孩这个事件(A)的概率是:

(1)   \begin{equation*} P(A) = 0.25 \end{equation*}

家里至少有一个男孩这句话给出了一个条件(Hypothesis,H),这个条件(或者假设)发生的概率是:

(2)   \begin{equation*} P(H) = 0.75 \end{equation*}

题目所问的问题实际上就是一个条件概率:在家里至少有一个男孩这个条件(H)之下,家里有两个男孩的这个事件(A)发生的概率是多少?这个概率可以用条件概率公式表达如下:

(3)   \begin{equation*} P(A|H) = \dfrac{P(AH)}{P(H)} \end{equation*}

顺便说一下,对于条件概率公式,我觉得下面的表达方式更自然一些:

(4)   \begin{equation*} P(AH) = P(H) \cdot P(A|H) \end{equation*}

我个人常常把它读作:事件A和H同时发生的概率,就是事件H发生的概率 乘以 当事件H发生时事件A将会发生的条件概率。这样的表达式也很容易拓展到多个事件的情况,比如下面:

(5)   \begin{equation*} P(ABC) = P(C) \cdot P(B|C) \cdot P(A|BC) \end{equation*}

现在回到我们的条件概率公式 (3)。 P(H) 我们已经知道是 0.75,但是 P(AH) 是多少呢?考虑事件 AH的具体含义,它表示“两个孩子都是男孩”而且“至少有一个男孩”这两个事件的交集(即同时发生)。参考上面枚举所有情况,很明显这种事件在所有四个事件中只发生了一次,因此 P(AH) = 0.25。把这个数据代入上式,我们就可以计算得出在家里至少有一个男孩这个条件(H)之下,家里有两个男孩的这个事件(A)发生的概率是:

(6)   \begin{equation*} P(A|H) = \dfrac{P(AH)}{P(H)} = \dfrac{0.25}{0.75} = \dfrac{1}{3} \end{equation*}

和我们直觉推理的结果一致。

下面有意思的事情来了,前面的问题可以被改写为下面的形式:假定你有一个朋友,你知道她有两个小孩,其中有一个是男孩。你可以猜测她的家里两个孩子都是男孩的概率是\dfrac{1}{3},这个结果正如我们前面分析的一样。下面假定有一天,你在公园散步 ,遇到你的这位朋友带着一位男孩也在散步,而这个男孩正是你这位朋友的小孩。现在我们要问一个新问题,你这位朋友家里两个孩子都是男孩的概率是多少?

这个新问题可以按照下面的简单思路来回答:你没有看见的那个孩子是男是女的概率是相等的,都是0.5,如果那个没有看见的孩子是男孩,你的朋友就有两个男孩,如果那个没有看见的孩子是女孩,你的朋友就有一男一女。所以对于这个新问题,你这位朋友家里两个孩子都是男孩的概率是0.5。

很明显,这个新问题的答案和我们原来问题的答案不一样,一个是0.5,一个是\dfrac{1}{3}。为什么会是这样子呢?会不会是某一个答案搞错了?我们原来已经知道朋友家里有一个男孩,现在我们只是实际看到了这个男孩。难道看一眼这个男孩确认一下我们已经知道的事实就会导致概率的变化吗?

上面的问题确实很令人迷惑,这也突出体现了概率论这门学科的众多违反直觉之处。实际上,这个新问题和我们前面讨论的问题确实是不同的问题,就像著名的 Monty Hall Problem 一样,某些被呈现的事件实际上被Over Represented。

原来的问题可以看做采样基本对象是家庭:在所有有两个孩子的家庭中,我们把至少有一个男孩的家庭抽取出来排成一队,队列中的每一个项目都是一个家庭;现在我们从这个队列中随机抽取一个家庭,那么抽到有两个男孩的家庭的概率是 \dfrac{1}{3}

而新问题采样的基本对象是男孩:对于所有的有两个孩子的家庭,把所有的男孩都排成一队,队列中的每一个项目都是一个男孩;下来我们从队伍中随机抽取一个男孩,问他来自于两个男孩的家庭的概率是多少。这种情况下他来自于有两个男孩的家庭的概率是0.5。这是因为两个男孩的家庭男孩比其他家庭要多,所以在这个队列中抽到来自两个男孩家庭的男孩的概率也要比其他家庭大。不易察觉的是,对于两个女孩的家庭,由于这些家庭根本没有办法参与到这个队列中来,如果我们加上限制条件,参加队列的家庭是那些至少有一个男孩的家庭(Hypothesis, H),那么抽到来自两个男孩家庭的男孩的概率依然是0.5。这个过程参见下面的图片。


现在我们言归正传,那么前面那个朋友家庭有两个男孩的概率到底是0.5 还是\dfrac{1}{3} 呢?对于这个问题,我的回答是概率只能应用于统计,而不能应用于个体,所以这个问题没有意义呀。 🙁