我们现在得到了后验概率分布的一个归一化的高斯近似。我们稍后会使用这个近似得到对于新数据的预测分布。然而，首先我们需要通过最大化边缘似然函数的下界，确定变分参数$$ {\xi_n} $$。

为了完成这一点，我们首先将不等式（10.152）代回到边缘似然函数，可得

$$ \ln p(t) = \ln \int p(t|w)p(w)dw \geq \ln\int h(w,\xi)p(w)dw = L(\xi) \tag{10.159} $$

与3.5节的线性回归模型的超参数$$ \alpha $$的最优化一样，有两种方法确定$$ \xi_n $$。在第一种方法中，我们看到函数$$ L(\xi) $$由$$ w $$上的积分定义，因此我们可以将$$ w $$看成一个潜在变量，然后使用EM算法。在第二种方法中，我们解析的对$$ w $$积分，然后直接关于$$ \xi $$进行最大化。让我们首先考虑EM方法。

在EM算法中，首先选择参数$$ {\xi_n} $$的某个初始值，我们将这些初始值聚集在一起，记作$$ {\xi}^{old} $$。然后在EM算法的E步骤中，我们使用这些参数值找到$$ w $$上的后验概率分布，它由式（10.156）给出。之后在M步骤中，我们最大化完整数据似然函数的期望，形式为

$$ Q(\xi,\xi^{old}) = \mathbb{E}[\ln{h(w,\xi)p(w)}] \tag{10.160} $$

其中期望是关于使用$$ \xi^{old} $$得到的后验概率分布$$ q(w) $$进行计算的。注意，$$ p(w) $$不依赖于$$ \xi $$，代入$$ h(w, \xi) $$，我们有

$$ Q(\xi,\xi^{old}) = \sum\limits_{n=1}^N\left{\ln\sigma(\xi_n) - \frac{\xi_n}{2} - \lambda(\xi_n)(\phi^T\mathbb{E}[ww^T]\phi_n - \xi_n^2)\right} + const \tag{10.161} $$

其中，“常数”表示与$$ \xi $$无关的项。我们现在令关于$$ \xi_n $$的导数等于0。经过简单的代数推导，使用$$ \sigma(\xi) $$和$$ \lambda(\xi) $$，有

$$ 0 = \lambda'(\xi_n)(\phi_n^T\mathbb{E}[ww^T]\phi_n - \xi_n^2) \tag{10.162} $$

现在，我们注意到，对于$$ \xi \geq 0,\lambda'(\xi) $$是$$ \xi $$的一个单调函数，并且由于界限在$$ \xi = 0 $$两侧的对称性，我们可以将我们的注意力限制在$$ \xi $$的非负部分而不失一般性。因此，$$ \lambda'(\xi) \neq 0 $$，从而我们得到了下面的重估计方程

$$ (\xi^{new})^2 = \phi_n^T\mathbb{E}[ww^T]\phi_n = \phi_n^T(S_N + m_Nm_N^T)\phi_n \tag{10.163} $$

推导过程中我们使用了式（10.156）。

让我们总结一下寻找变分后验概率分布的EM算法。首先，我们初始化变分参数$$ \xi^{old} $$。在E步骤中，我们计算由式（10.156）给出的$$ w $$上的后验概率分布，其中均值和协方差分别由式（10.157）和式（10.158）定义。在M步骤中，我们使用这个变分后验概率，计算由式（10.163）给出的一个新的$$ \xi $$值。不断重复E步骤和M步骤，直到满足一个适当的收敛准则，这在实际应用中通常只需要几步迭代。

我们介绍另一种得到$$ \xi $$的重估计方程的方法。我们注意到，在下界$$ L(\xi) $$的定义（10.159）中的关于$$ w $$的积分中，被积函数的形式类似于高斯分布，因此积分可以解析地计算。计算出这个积分之后，我们可以关于$$ \xi_n $$进行求导。可以证明，这种方法得到的重估计方程与之前用EM方法得到的方程（10.163）完全相同。

正如我们已经强调过的那样，在变分方法的应用中，能够计算出由式（10.159）给出的下界$$ L(\xi) $$是很有用的。我们注意到$$ p(w) $$是一个高斯分布，$$ h(w, \xi) $$是$$ w $$的二次函数的指数形式，从而我们可以解析地计算$$ w $$上的积分。因此，通过配平方的方法，然后使用高斯分布的标准化系数的标准结果，我们可以得到解的精确形式如下

$$ \begin{eqnarray} L(\xi) &=& \frac{1}{2}\ln\frac{|S_N|}{|S_0|} + \frac{1}{2}m_N^TS_N^{-1}m_N - \frac{1}{2}m_0^TS_0^{-1}m_0 \\ & & +\sum\limits_{n=1}^N\left{\ln\sigma(\xi_n) - \frac{1}{2}\xi_n + \lambda(\xi_n)\xi_n^2\right} \tag{10.164} \end{eqnarray} $$

变分框架也可以应用于数据顺序到达的情形（Jaakkla and Jordan, 2000）。在这种情况下，我们保持$$ w $$上的一个高斯后验概率分布，它使用先验概率分布$$ p(w) $$进行初始化。随着每个数据点的到达，使用界限（10.151），然后标准化，我们就可以对后验概率进行更新，得到一个更新后的后验概率分布。

通过对后验概率分布进行积分，我们可以得到预测分布，它的形式与4.5.2节讨论的拉普拉斯近似的形式相同。图10.13给出了人工生成数据集的变分预测分布。

图 10.13 logistic回归的贝叶斯方法的例子。数据集是一个简单的线性可分的数据集。左图给出了使用变分推断的方法得到的预测分布。我们看到决策边界大致位于数据点的聚类的中间位置，并且预测分布的轮廓线在远离数据点的位置发生分叉，这反映出了在这些区域进行分类的不确定性。右图给出了对应于从后验概率分布$$ p(w|t) $$中抽取的参数$$ w $$的五个样本点的决策边界。

这个例子为7.1节讨论的“大边缘”的概念提供了一些有趣的认识。“大边缘”的概念与贝叶斯的解有着定性的相似的行为。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!