目前为止,我们已经研究了线性动态系统中的推断问题,假设模型的参数$$ \theta = {A,\Gamma,C,\Sigma,\mu_0,P_0} $$已知。接下来,我们考虑使用最大似然方法确定这些参数Ghahramani and Hinton,1996b)。由于模型具有潜在变量,因此可以使用第9章讨论的一般形式的EM算法来解决这个问题。
我们可以按照下面的方法推导线性动态系统的EM算法。让我们将算法在某个特定循环上的模型参数估计值记作$$ \theta^{old}
$$ \begin{eqnarray} \mathbb{E}[z_m] &=& \hat{\mu}n \tag{13.105} \ \mathbb{E}[z_nz{n-1}^T] &=& \hat{V}nJ{n-1}^T + \hat{\mu}n\hat{\mu}{n-1}^T \tag{13.106} \ \mathbb{E}[z_nz_n^T] &=& \hat{V}_n + \hat{\mu}_n\hat{mu}_n^T \tag{13.107} \end{eqnarray} $$
其中我们已经使用了公式(13.104)。
现在我们考虑完整数据对数似然函数,它通过对式(13.6)取对数的方式得到,因此结果为
其中我们显式地写出了对参数的依赖关系。我们现在对完整数据对数似然函数关于后验概率分布$$ p(Z|X,\theta^{old}) $$取期望,它定义了函数
在M步骤中,函数关于$$ \theta $$的分量进行最大化。
首先考虑参数$$ \mu_0
其中所有不依赖于$$ \mu_0
类似的,为了最优化$$ A
$$ \begin{eqnarray} Q(\theta,\theta^{old}) = &-&\frac{N-1}{2}\ln |\Gamma| \ &-& \mathbb{E}{Z|\theta^{old}}\left[\frac{1}{2}\sum\limits{n=2}^N(z_n - Az_{n-1})^T\Gamma^{-1}(z_n - Az_{n-1})\right] + const \tag{13.112} \end{eqnarray} $$
其中常数项由不依赖与$$ A
$$ \begin{eqnarray} A^{new} &=& \left(\sum\limits_{n=2}^N\mathbb{E}[z_nz_{n-1}^T]\right)\left(\sum\limits_{n=2}^N\mathbb{E}[z_{n-1}z_{n-1}^T]\right)^{-1} \tag{13.113} \ \Gamma^{new} &=& \frac{1}{N-1}\sum\limits_{n=2}^N\Bigg{\mathbb{E}[z_nz-n^T] - A^{new}\mathbb{E}[z_{n-1}z_n^T] \ & & -\mathbb{E}z_nz_{n-1}^T^T + A^{new}\mathbb{E}z_{n-1}z_{n-1}^T^T\Bigg} \tag{13.114} \end{eqnarray} $$
注意,$$ A^{new}
最后,为了确定$$ C
$$ \begin{eqnarray} Q(\theta,\theta^{old}) = &-& \frac{N}{2}\ln |\Sigma| \ &-&\mathbb{E}{Z|\theta^{old}}\left[\frac{1}{2}\sum\limits{n=1}^N(x_n - Cz_n)^T\Sigma^{-1}(x_n - Cz_n)\right] + const \end{eqnarray} $$
关于$$ C
$$ \begin{eqnarray} C^{new} &=& \left(\sum\limits_{n=1}^Nx_n\mathbb{E}[z_n^T]\right)\left(\sum\limits_{n=1}^N\mathbb{E}[z_nz_n^T]\right)^{-1} \tag{13.115} \ \Sigma^{new} &=& \frac{1}{N}\sum\limits_{n=1}^N{x_nx_n^T - C^{new}\mathbb{E}[z_n]x_n^T \ & & -x_n\mathbb{E}z_n^T^T + C^{new}\mathbb{E}z_nz_n^T^T} \tag{13.116} \end{eqnarray} $$
我们得到了使用最大似然方法学习线性动态系统的参数的方法。引入先验概率分布得到MAP估计的方法很简单。使用第10章讨论的近似方法,可以得到一个完整的贝叶斯方法。篇幅所限,不在这里详细介绍这些内容。