Maximum Likelihood Estimation 和 Mean Square Error

Maximum Likelihood Estimation 是优化问题中的一个常用准则,它表示我们应该选择使训练数据的可能性(Likelihood)最大的一种模型。《Maximum Likelihood Estimation 和 Cross Entropy》的分析表明在分类问题(Classification)中,该准则和最小化Cross Entropy实际上是等价的。今天我们来看一看这个准则在回归问题(Regression)中的应用。

假定有如下一组训练数据:

(1)   \begin{equation*} \{x_1, x_2, ..., x_m, y\} \end{equation*}

其中 x_1, x_2, ..., x_m 是输入信号,y是目标变量。

通常我们将模型看做是一个从输入信号到目标变量的函数,但是我们也可以将模型看做给定了条件 x_1, x_2, ..., x_m,描述某个 y 出现的概率密度函数。即:

(2)   \begin{equation*} p(y | x_1, x_2, ..., x_m) \end{equation*}

这样做的意义是什么呢?假定我们根据实验观察,得到了大量的训练数据。因为总是有不可知因素能够影响 y的最终取值,但是却没有被我们包含在 x_1, x_2, ..., x_m当中,不难想象,在这种情况下,我们会发现某些训练数据的输入信号部分是完全一样的,但是 y却不一样。同时我们的模型只能够预测一个值,这个时候模型应该预测那一个值呢?如果我们把模型 (2)看做对于目标数据的概率密度函数,那么对于和模型预测值相同的那些值,它们的条件概率是1吗?和模型预测值不同的那些值,它们的条件概率是0吗?

对于模型应该预测的值,训练数据的平均值是一个明显正确的选择。但是后面两个问题,我们不应该采用非0即1的答案。统计学指出,在上面的情况下,我们应当假定在相同的输入信号下所有的目标变量y的概率分布符合正态分布(Normal Distribution),其分布的中心就是所有目标变量的平均值,这个值也是我们的模型的预测值(Predict)。但是对于和这个预测值相同的y值,其概率并不是1,和这个预测值不同的y值,其概率也不是0,而是符合正态分布。在这个前提下,我们就可以说模型描述了给定了条件 x_1, x_2, ..., x_my 的概率分布:

(3)   \begin{equation*} p(y | x_1, x_2, ..., x_m) = \mathcal{N} (y; \overline{y}(x_1, x_2, ..., x_m, \theta), \sigma ^2) \end{equation*}

上式中 \theta 表示模型的具体参数,\overline{y} 表示模型预测的具体值,\sigma^2 可以暂时先使用一个任意指定的固定数值。这样我们的模型就表示了给定了条件 x_1, x_2, ..., x_m,某个 y 出现的概率。相应的,全部训练数据的Likelihood就是:

(4)   \begin{equation*} L(X) = \prod_{i=1}^{n} p(y | x_1, x_2, ..., x_m, \theta) \end{equation*}

上式中 n 表示训练用例的总数。而寻找最佳模型的优化问题就可以表述为:

(5)   \begin{equation*} \theta = \underset{\theta}{\operationname{argmax}} \prod_{i=1}^{n} p(y | x_1, x_2, ..., x_m, \theta) \end{equation*}

因为对数函数本身是单调递增的,所以给所有的概率取对数并不影响优化问题的最终解,因此上述优化问题又可以表述为:

(6)   \begin{equation*} \theta = \underset{\theta}{\operationname{argmax}} \sum_{i=1}^{n} \log{p(y | x_1, x_2, ..., x_m, \theta)} \end{equation*}

注意公式 6 本身并没有假定相同输入信号的情况下目标变量的分布式正态分布。如果目标变量确实符合如下的正态分布:

(7)   \begin{equation*} p(y | x_1, x_2, ..., x_m,) = \frac{1}{\sqrt{2 \pi}} e^{-\frac{(y - \overline{y})^2}{2}} \end{equation*}

那么我们就可以将 7 带入到 6 中,我们就会看到:

(8)   \begin{equation*} \begin{split} & \sum_{i=1}^{n} \log{p(y | x_1, x_2, ..., x_m, \theta)} \\ &= \sum_{i=1}^{n} \log{\frac{1}{\sqrt{2 \pi}}} - \frac{(y - \overline{y})^2}{2} \\ &= - \frac{n}{2} \log{2 \pi} - \sum_{i=1}^{n} \frac{(y - \overline{y})^2}{2} \end{split} \end{equation*}

对于优化问题,上式中的前面一项是一个常数,因此不会影响模型参数 \theta 的最终选择,而后一项正是广为人知的 Mean Square Error。由此可见,在回归问题中,如果我们假定训练数据的误差是符合正态分布的,那么 Maximum Likelihood Estimation 和 Mean Square Error 推导出的优化模型是等价的。

这个 Maximum Likelihood Estimation 原则可真是神奇啊。

Reference

Deep Learning, Secion 5.5