Maximum Likelihood Estimation 是优化问题中的一个常用准则,它表示我们应该选择使训练数据的可能性(Likelihood)最大的一种模型。《Maximum Likelihood Estimation 和 Cross Entropy》的分析表明在分类问题(Classification)中,该准则和最小化Cross Entropy实际上是等价的。今天我们来看一看这个准则在回归问题(Regression)中的应用。
假定有如下一组训练数据:
(1)
其中 是输入信号,
是目标变量。
通常我们将模型看做是一个从输入信号到目标变量的函数,但是我们也可以将模型看做给定了条件 ,描述某个
出现的概率密度函数。即:
(2)
这样做的意义是什么呢?假定我们根据实验观察,得到了大量的训练数据。因为总是有不可知因素能够影响 的最终取值,但是却没有被我们包含在
当中,不难想象,在这种情况下,我们会发现某些训练数据的输入信号部分是完全一样的,但是
却不一样。同时我们的模型只能够预测一个值,这个时候模型应该预测那一个值呢?如果我们把模型 (2)看做对于目标数据的概率密度函数,那么对于和模型预测值相同的那些值,它们的条件概率是1吗?和模型预测值不同的那些值,它们的条件概率是0吗?
对于模型应该预测的值,训练数据的平均值是一个明显正确的选择。但是后面两个问题,我们不应该采用非0即1的答案。统计学指出,在上面的情况下,我们应当假定在相同的输入信号下所有的目标变量的概率分布符合正态分布(Normal Distribution),其分布的中心就是所有目标变量的平均值,这个值也是我们的模型的预测值(Predict)。但是对于和这个预测值相同的
值,其概率并不是1,和这个预测值不同的
值,其概率也不是0,而是符合正态分布。在这个前提下,我们就可以说模型描述了给定了条件
,
的概率分布:
(3)
上式中 表示模型的具体参数,
表示模型预测的具体值,
可以暂时先使用一个任意指定的固定数值。这样我们的模型就表示了给定了条件
,某个
出现的概率。相应的,全部训练数据的Likelihood就是:
(4)
上式中 表示训练用例的总数。而寻找最佳模型的优化问题就可以表述为:
(5)
因为对数函数本身是单调递增的,所以给所有的概率取对数并不影响优化问题的最终解,因此上述优化问题又可以表述为:
(6)
注意公式 6 本身并没有假定相同输入信号的情况下目标变量的分布式正态分布。如果目标变量确实符合如下的正态分布:
(7)
(8)
对于优化问题,上式中的前面一项是一个常数,因此不会影响模型参数 的最终选择,而后一项正是广为人知的 Mean Square Error。由此可见,在回归问题中,如果我们假定训练数据的误差是符合正态分布的,那么 Maximum Likelihood Estimation 和 Mean Square Error 推导出的优化模型是等价的。
这个 Maximum Likelihood Estimation 原则可真是神奇啊。