Skip to content

Commit 04c21d6

Browse files
committed
PGMIntro added(representation)
1 parent a51ee38 commit 04c21d6

File tree

3 files changed

+126
-1
lines changed

3 files changed

+126
-1
lines changed

.DS_Store

0 Bytes
Binary file not shown.

6.Exponentialfamily.md

Lines changed: 2 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -118,4 +118,5 @@ $$
118118
$$
119119
p(x)=\exp(\lambda^Tf(x)+\lambda_0-1)
120120
$$
121-
这就是指数族分布。
121+
这就是指数族分布。
122+

7.PGMIntro.md

Lines changed: 124 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,124 @@
1+
# 概率图模型
2+
3+
概率图模型使用图的方式表示概率分布。为了在图中添加各种概率,首先总结一下随机变量分布的一些规则:
4+
$$
5+
\begin{align}
6+
&Sum\ Rule:p(x_1)=\int p(x_1,x_2)dx_2\\
7+
&Product\ Rule:p(x_1,x_2)=p(x_1|x_2)p(x_2)\\
8+
&Chain\ Rule:p(x_1,x_2,\cdots,x_p)=\prod\limits_{i=1}^pp(x_i|x_{i+1,x_{i+2} \cdots}x_p)\\
9+
&Bayesian\ Rule:p(x_1|x_2)=\frac{p(x_2|x_1)p(x_1)}{p(x_2)}
10+
\end{align}
11+
$$
12+
可以看到,在链式法则中,如果数据维度特别高,那么的采样和计算非常困难,我们需要在一定程度上作出简化,在朴素贝叶斯中,作出了条件独立性假设。在 Markov 假设中,给定数据的维度是以时间顺序出现的,给定当前时间的维度,那么下一个维度与之前的维度独立。在 HMM 中,采用了齐次 Markov 假设。在 Markov 假设之上,更一般的,加入条件独立性假设,对维度划分集合 $A,B,C$,使得 $X_A\perp X_B|X_C$。
13+
14+
概率图模型采用图的特点表示上述的条件独立性假设,节点表示随机变量,边表示条件概率。概率图模型可以分为三大理论部分:
15+
16+
1. 表示:
17+
1. 有向图(离散):贝叶斯网络
18+
2. 高斯图(连续):高斯贝叶斯和高斯马尔可夫网路
19+
3. 无向图(离散):马尔可夫网络
20+
2. 推断
21+
1. 精确推断
22+
2. 近似推断
23+
1. 确定性近似(如变分推断)
24+
2. 随机近似(如 MCMC)
25+
3. 学习
26+
1. 参数学习
27+
1. 完备数据
28+
2. 隐变量:E-M 算法
29+
2. 结构学习
30+
31+
## 有向图-贝叶斯网络
32+
33+
已知联合分布中,各个随机变量之间的依赖关系,那么可以通过拓扑排序(根据依赖关系)可以获得一个有向图。而如果已知一个图,也可以直接得到联合概率分布的因子分解:
34+
$$
35+
p(x_1,x_2,\cdots,x_p)=\prod\limits_{i=1}^pp(x_i|x_{parent(i)})
36+
$$
37+
那么实际的图中条件独立性是如何体现的呢?在局部任何三个节点,可以有三种结构:
38+
39+
1. ```mermaid
40+
graph TB;
41+
A((A))-->B((B));
42+
B-->C((C));
43+
```
44+
45+
$$
46+
p(A,B,C)=p(A)p(B|A)p(C|B)=p(A)p(B|A)p(C|B,A)\\
47+
\Longrightarrow p(C|B)=p(C|B,A)\\
48+
\Leftrightarrow p(C|B)p(A|B)=p(C|A,B)p(A|B)=p(C,A|B)\\
49+
\Longrightarrow C\perp A|B
50+
$$
51+
52+
2. ```mermaid
53+
graph TB;
54+
B((B))-->A((A));
55+
B-->C((C));
56+
```
57+
58+
$$
59+
p(A,B,C)=p(A|B)p(B)p(C|B)=p(B)p(A|B)p(C|A,B)\\
60+
\Longrightarrow p(C|B)=p(C|B,A)\\
61+
\Leftrightarrow p(C|B)p(A|B)=p(C|A,B)p(A|B)=p(C,A|B)\\
62+
\Longrightarrow C\perp A|B
63+
$$
64+
65+
3. ```mermaid
66+
graph TB;
67+
A((A))-->B((B));
68+
C((C))-->B
69+
```
70+
71+
$$
72+
p(A,B,C)=p(A)p(C)p(B|C,A)=p(A)p(C|A)p(B|C,A)\\
73+
\Longrightarrow p(C)=p(C|A)\\
74+
\Leftrightarrow C\perp A\\
75+
$$
76+
77+
对这种结构,$A,C$ 不与 $B$ 条件独立。
78+
79+
从整体的图来看,可以引入 D 划分的概念。对于类似上面图 1和图 2的关系,引入集合A,B,那么满足 $A\perp B|C$ 的 $C$ 集合中的点与 $A,B$ 中的点的关系都满足图 1,2,满足图3 关系的点都不在 $C$ 中。D 划分应用在贝叶斯定理中:
80+
$$
81+
p(x_i|x_{-i})=\frac{p(x)}{\int p(x)dx_{i}}=\frac{\prod\limits_{j=1}^pp(x_j|x_{parents(j)})}{\int\prod\limits_{j=1}^pp(x_j|x_{parents(j)})dx_i}
82+
$$
83+
可以发现,上下部分可以分为两部分,一部分是和 $x_i$ 相关的,另一部分是和 $x_i$ 无关的,而这个无关的部分可以相互约掉。于是计算只涉及和 $x_i$ 相关的部分。
84+
85+
与 $x_i$ 相关的部分可以写成:
86+
$$
87+
p(x_i|x_{parents(i)})p(x_{child(i)}|x_i)
88+
$$
89+
这些相关的部分又叫做 Markov 毯。
90+
91+
实际应用的模型中,对这些条件独立性作出了假设,从单一到混合,从有限到无限(时间,空间)可以分为:
92+
93+
1. 朴素贝叶斯,单一的条件独立性假设 $p(x|y)=\prod\limits_{i=1}^pp(x_i|y)$,在 D 划分后,所有条件依赖的集合就是单个元素。
94+
2. 高斯混合模型:混合的条件独立。引入多类别的隐变量 $z_1, z_2,\cdots,z_k$, $p(x|z)=\mathcal{N}(\mu,\Sigma)$,条件依赖集合为多个元素。
95+
3. 与时间相关的条件依赖
96+
1. Markov 链
97+
2. 高斯过程(无限维高斯分布)
98+
4. 连续:高斯贝叶斯网络
99+
5. 组合上面的分类
100+
* GMM 与时序结合:动态模型
101+
* HMM(离散)
102+
* 线性动态系统 LDS(Kalman 滤波)
103+
* 粒子滤波(非高斯,非线性)
104+
105+
## 无向图-马尔可夫网络(马尔可夫随机场)
106+
107+
无向图没有了类似有向图的局部不同结构,在马尔可夫网络中,也存在 D 划分的概念。直接将条件独立的集合 $x_A\perp x_B|x_C$ 划分为三个集合。这个也叫全局 Markov。对局部的节点,$x\perp (X-Neighbour(\mathcal{x}))|Neighbour(x)$。这也叫局部 Markov。对于成对的节点:$x_i\perp x_j|x_{-i-j}$,其中 $i,j$ 不能相邻。这也叫成对 Markov。事实上上面三个点局部全局成对是相互等价的。
108+
109+
有了这个条件独立性的划分,还需要因子分解来实际计算。引入团的概念:
110+
111+
> 团,最大团:图中节点的集合,集合中的节点之间相互都是连接的叫做团,如果不能再添加节点,那么叫最大团。
112+
113+
利用这个定义进行的 $x$ 所有维度的联合概率分布的因子分解为,假设有 $K$ 个团,$Z$ 就是对所有可能取值求和:
114+
$$
115+
\begin{align}p(x)=\frac{1}{Z}\prod\limits_{i=1}^{K}\phi(x_{ci})\\
116+
Z=\sum\limits_{x\in\mathcal{X}}\prod\limits_{i=1}^{K}\phi(x_{ci})
117+
\end{align}
118+
$$
119+
其中 $\phi(x_{ci})$ 叫做势函数,它必须是一个正值,可以记为:
120+
$$
121+
\phi(x_{ci})=\exp(-E(x_{ci}))
122+
$$
123+
这个分布叫做 Gibbs 分布(玻尔兹曼分布)。于是也可以记为:$p(x)=\frac{1}{Z}\exp(-\sum\limits_{i=1}^KE(x_{ci}))$。这个分解和条件独立性等价(Hammesley-Clifford 定理),这个分布的形式也和指数族分布形式上相同,于是满足最大熵原理。
124+

0 commit comments

Comments
 (0)