|
| 1 | +# 概率图模型 |
| 2 | + |
| 3 | +概率图模型使用图的方式表示概率分布。为了在图中添加各种概率,首先总结一下随机变量分布的一些规则: |
| 4 | +$$ |
| 5 | +\begin{align} |
| 6 | +&Sum\ Rule:p(x_1)=\int p(x_1,x_2)dx_2\\ |
| 7 | +&Product\ Rule:p(x_1,x_2)=p(x_1|x_2)p(x_2)\\ |
| 8 | +&Chain\ Rule:p(x_1,x_2,\cdots,x_p)=\prod\limits_{i=1}^pp(x_i|x_{i+1,x_{i+2} \cdots}x_p)\\ |
| 9 | +&Bayesian\ Rule:p(x_1|x_2)=\frac{p(x_2|x_1)p(x_1)}{p(x_2)} |
| 10 | +\end{align} |
| 11 | +$$ |
| 12 | +可以看到,在链式法则中,如果数据维度特别高,那么的采样和计算非常困难,我们需要在一定程度上作出简化,在朴素贝叶斯中,作出了条件独立性假设。在 Markov 假设中,给定数据的维度是以时间顺序出现的,给定当前时间的维度,那么下一个维度与之前的维度独立。在 HMM 中,采用了齐次 Markov 假设。在 Markov 假设之上,更一般的,加入条件独立性假设,对维度划分集合 $A,B,C$,使得 $X_A\perp X_B|X_C$。 |
| 13 | + |
| 14 | +概率图模型采用图的特点表示上述的条件独立性假设,节点表示随机变量,边表示条件概率。概率图模型可以分为三大理论部分: |
| 15 | + |
| 16 | +1. 表示: |
| 17 | + 1. 有向图(离散):贝叶斯网络 |
| 18 | + 2. 高斯图(连续):高斯贝叶斯和高斯马尔可夫网路 |
| 19 | + 3. 无向图(离散):马尔可夫网络 |
| 20 | +2. 推断 |
| 21 | + 1. 精确推断 |
| 22 | + 2. 近似推断 |
| 23 | + 1. 确定性近似(如变分推断) |
| 24 | + 2. 随机近似(如 MCMC) |
| 25 | +3. 学习 |
| 26 | + 1. 参数学习 |
| 27 | + 1. 完备数据 |
| 28 | + 2. 隐变量:E-M 算法 |
| 29 | + 2. 结构学习 |
| 30 | + |
| 31 | +## 有向图-贝叶斯网络 |
| 32 | + |
| 33 | +已知联合分布中,各个随机变量之间的依赖关系,那么可以通过拓扑排序(根据依赖关系)可以获得一个有向图。而如果已知一个图,也可以直接得到联合概率分布的因子分解: |
| 34 | +$$ |
| 35 | +p(x_1,x_2,\cdots,x_p)=\prod\limits_{i=1}^pp(x_i|x_{parent(i)}) |
| 36 | +$$ |
| 37 | +那么实际的图中条件独立性是如何体现的呢?在局部任何三个节点,可以有三种结构: |
| 38 | + |
| 39 | +1. ```mermaid |
| 40 | + graph TB; |
| 41 | + A((A))-->B((B)); |
| 42 | + B-->C((C)); |
| 43 | + ``` |
| 44 | +
|
| 45 | + $$ |
| 46 | + p(A,B,C)=p(A)p(B|A)p(C|B)=p(A)p(B|A)p(C|B,A)\\ |
| 47 | + \Longrightarrow p(C|B)=p(C|B,A)\\ |
| 48 | + \Leftrightarrow p(C|B)p(A|B)=p(C|A,B)p(A|B)=p(C,A|B)\\ |
| 49 | + \Longrightarrow C\perp A|B |
| 50 | + $$ |
| 51 | +
|
| 52 | +2. ```mermaid |
| 53 | + graph TB; |
| 54 | + B((B))-->A((A)); |
| 55 | + B-->C((C)); |
| 56 | + ``` |
| 57 | +
|
| 58 | + $$ |
| 59 | + p(A,B,C)=p(A|B)p(B)p(C|B)=p(B)p(A|B)p(C|A,B)\\ |
| 60 | + \Longrightarrow p(C|B)=p(C|B,A)\\ |
| 61 | + \Leftrightarrow p(C|B)p(A|B)=p(C|A,B)p(A|B)=p(C,A|B)\\ |
| 62 | + \Longrightarrow C\perp A|B |
| 63 | + $$ |
| 64 | +
|
| 65 | +3. ```mermaid |
| 66 | + graph TB; |
| 67 | + A((A))-->B((B)); |
| 68 | + C((C))-->B |
| 69 | + ``` |
| 70 | +
|
| 71 | + $$ |
| 72 | + p(A,B,C)=p(A)p(C)p(B|C,A)=p(A)p(C|A)p(B|C,A)\\ |
| 73 | + \Longrightarrow p(C)=p(C|A)\\ |
| 74 | + \Leftrightarrow C\perp A\\ |
| 75 | + $$ |
| 76 | +
|
| 77 | + 对这种结构,$A,C$ 不与 $B$ 条件独立。 |
| 78 | +
|
| 79 | +从整体的图来看,可以引入 D 划分的概念。对于类似上面图 1和图 2的关系,引入集合A,B,那么满足 $A\perp B|C$ 的 $C$ 集合中的点与 $A,B$ 中的点的关系都满足图 1,2,满足图3 关系的点都不在 $C$ 中。D 划分应用在贝叶斯定理中: |
| 80 | +$$ |
| 81 | +p(x_i|x_{-i})=\frac{p(x)}{\int p(x)dx_{i}}=\frac{\prod\limits_{j=1}^pp(x_j|x_{parents(j)})}{\int\prod\limits_{j=1}^pp(x_j|x_{parents(j)})dx_i} |
| 82 | +$$ |
| 83 | +可以发现,上下部分可以分为两部分,一部分是和 $x_i$ 相关的,另一部分是和 $x_i$ 无关的,而这个无关的部分可以相互约掉。于是计算只涉及和 $x_i$ 相关的部分。 |
| 84 | +
|
| 85 | +与 $x_i$ 相关的部分可以写成: |
| 86 | +$$ |
| 87 | +p(x_i|x_{parents(i)})p(x_{child(i)}|x_i) |
| 88 | +$$ |
| 89 | +这些相关的部分又叫做 Markov 毯。 |
| 90 | +
|
| 91 | +实际应用的模型中,对这些条件独立性作出了假设,从单一到混合,从有限到无限(时间,空间)可以分为: |
| 92 | +
|
| 93 | +1. 朴素贝叶斯,单一的条件独立性假设 $p(x|y)=\prod\limits_{i=1}^pp(x_i|y)$,在 D 划分后,所有条件依赖的集合就是单个元素。 |
| 94 | +2. 高斯混合模型:混合的条件独立。引入多类别的隐变量 $z_1, z_2,\cdots,z_k$, $p(x|z)=\mathcal{N}(\mu,\Sigma)$,条件依赖集合为多个元素。 |
| 95 | +3. 与时间相关的条件依赖 |
| 96 | + 1. Markov 链 |
| 97 | + 2. 高斯过程(无限维高斯分布) |
| 98 | +4. 连续:高斯贝叶斯网络 |
| 99 | +5. 组合上面的分类 |
| 100 | + * GMM 与时序结合:动态模型 |
| 101 | + * HMM(离散) |
| 102 | + * 线性动态系统 LDS(Kalman 滤波) |
| 103 | + * 粒子滤波(非高斯,非线性) |
| 104 | +
|
| 105 | +## 无向图-马尔可夫网络(马尔可夫随机场) |
| 106 | +
|
| 107 | +无向图没有了类似有向图的局部不同结构,在马尔可夫网络中,也存在 D 划分的概念。直接将条件独立的集合 $x_A\perp x_B|x_C$ 划分为三个集合。这个也叫全局 Markov。对局部的节点,$x\perp (X-Neighbour(\mathcal{x}))|Neighbour(x)$。这也叫局部 Markov。对于成对的节点:$x_i\perp x_j|x_{-i-j}$,其中 $i,j$ 不能相邻。这也叫成对 Markov。事实上上面三个点局部全局成对是相互等价的。 |
| 108 | +
|
| 109 | +有了这个条件独立性的划分,还需要因子分解来实际计算。引入团的概念: |
| 110 | +
|
| 111 | +> 团,最大团:图中节点的集合,集合中的节点之间相互都是连接的叫做团,如果不能再添加节点,那么叫最大团。 |
| 112 | +
|
| 113 | +利用这个定义进行的 $x$ 所有维度的联合概率分布的因子分解为,假设有 $K$ 个团,$Z$ 就是对所有可能取值求和: |
| 114 | +$$ |
| 115 | +\begin{align}p(x)=\frac{1}{Z}\prod\limits_{i=1}^{K}\phi(x_{ci})\\ |
| 116 | +Z=\sum\limits_{x\in\mathcal{X}}\prod\limits_{i=1}^{K}\phi(x_{ci}) |
| 117 | +\end{align} |
| 118 | +$$ |
| 119 | +其中 $\phi(x_{ci})$ 叫做势函数,它必须是一个正值,可以记为: |
| 120 | +$$ |
| 121 | +\phi(x_{ci})=\exp(-E(x_{ci})) |
| 122 | +$$ |
| 123 | +这个分布叫做 Gibbs 分布(玻尔兹曼分布)。于是也可以记为:$p(x)=\frac{1}{Z}\exp(-\sum\limits_{i=1}^KE(x_{ci}))$。这个分解和条件独立性等价(Hammesley-Clifford 定理),这个分布的形式也和指数族分布形式上相同,于是满足最大熵原理。 |
| 124 | +
|
0 commit comments