二元变量只能量化描述两种可能值中取一种的情况。但是，我们经常碰到的是从$$ K $$个可能的互斥状态中取一种的离散变量。尽管，有很多种不同的方式来表示这样的变量，我们先介绍一种被称为“1-of-K”的比较方便的方法。这种方法是：用$$ K $$维向量其中第$$ x_k $$元素为1，其它为0来表示。举个例子：如果有够取$$ K = 6 $$种状态的变量，其中一次观测得到$$ x_3 = 1 $$，那么就可以表示为：

$$ x = (0, 0, 1, 0, 0, 0)^T \tag{2.25} $$

注意，这样的向量满足$$ \sum_{k=1}^K x_k = 1 $$。如果用参数$$ \mu_k $$来标记$$ x_k = 1 $$的概率，那么我们就得到$$ x $$的分布：

$$ p(x|\mu) = \prod\limits_{k=1}^K\mu_k^{x_k} \tag{2.26} $$

其中$$ \mu = (\mu_1,...,\mu_K)^T $$，由于参数$$ \mu_k $$表示概率，所以需要满足$$ \mu_k \geq 0 $$且$$ \sum_k\mu_k = 1 $$。公式（2.26）分布可以看作伯努利分布在多于两种输出时的泛化。很容易证明这个分布是标准化的。

$$ \sum\limits_xp(x|\mu) = \sum\limits_{k=1}^K\mu_k = 1 \tag{2.27} $$

且

$$ \mathbb{E}[x|\mu] = \sum\limits_xp(x|\mu)x = (\mu_1,...,\mu_M)^T = \mu \tag{2.28} $$

现在，考虑一个有$$ N $$个独立观测值$$ x_1,...,x_N $$的数据集$$ D $$。其对应的似然函数的形式为

$$ p(D|\mu) = \prod\limits_{n=1}^N\prod\limits_{k=1}^K\mu_k^{x_{nk}} = \prod\limits_{k=1}^K\mu_k^{(\sum_nx_{nk})} = \prod\limits_{k=1}^K\mu_k^{m_k} \tag{2.29} $$

得到似然函数只通过$$ K $$个：

$$ m_k = \sum\limits_n x_{nk} \tag{2.30} $$ 依赖于$$ N $$个数据点。它表示观测到$$ x_k = 1 $$的次数。这些别称为这个分布的充分统计量（sufficient statistics）。

为了得到$$ \mu $$的最大似然解，我们需要在$$ \mu_k $$的和等于1的约束下，关于$$ \mu_k $$最大化$$ \ln p(D|\mu) $$。这可以通过拉格朗日乘数法得到，即：

$$ \sum\limits_{k=1}^{K}m_k\ln\mu_k + \lambda(\sum\limits_{k=1}^K\mu_k - 1 ) \tag{2.31} $$

对公式（2.31）关于$$ \mu_k $$求导并使之等于0得到：

$$ \mu_k = -m_k / \lambda \tag{2.32} $$

把公式（2.32）代入限制条件$$ \sum_k\mu_k = 1 $$，可得$$ \lambda = -N $$。所以我们的最大似然解：

$$ \mu_k^{ML} = \frac{m_k}{N} \tag{2.33} $$

就是观测$$ x_k = 1 $$所占的比例。

考虑$$ m_1,...,m_K $$在参数$$ \mu $$和观测总数N条件下联合分布。通过公式（2.29）得到：

$$ Mult(m_1,...,m_k|\mu,N) = \binom{N}{m_1m_2...m_k}\prod\limits_{k=1}^K\mu_k^{m_k} \tag{2.34} $$

这就是多项式分布（multinomial distribution）。标准化系数是把N个物体分成大小为$$ m_1,...,m_K $$的K组的方案总数，定义为

$$ \binom{N}{m_1m_2...m_k} = \frac{N!}{m_1!m_2!...m_k!} \tag{2.35} $$

注意，$$ m_k $$满足下面的约束：

$$ \sum\limits_{k=1}^Km_k = N \tag{2.36} $$

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!