二元变量只能量化描述两种可能值中取一种的情况。但是,我们经常碰到的是从$$ K $$个可能的互斥状态中取一种的离散变量。尽管,有很多种不同的方式来表示这样的变量,我们先介绍一种被称为“1-of-K”的比较方便的方法。这种方法是:用$$ K $$维向量其中第$$ x_k $$元素为1,其它为0来表示。举个例子:如果有够取$$ K = 6 $$种状 态的变量,其中一次观测得到$$ x_3 = 1 $$,那么就可以表示为:
$$ x = (0, 0, 1, 0, 0, 0)^T \tag{2.25} $$
注意,这样的向量满足$$ \sum_{k=1}^K x_k = 1 $$。如果用参数$$ \mu_k $$来标记$$ x_k = 1 $$的概率,那么我们就得到$$ x $$的分布:
$$
p(x|\mu) = \prod\limits_{k=1}^K\mu_k^{x_k} \tag{2.26}
$$
其中$$ \mu = (\mu_1,...,\mu_K)^T $$,由于参数$$ \mu_k $$表示概率,所以需要满足$$ \mu_k \geq 0 $$且$$ \sum_k\mu_k = 1 $$。公式(2.26)分布可以看作伯努利分布在多于两种输出时的泛化。很容易证明这个分布是标准化的。
$$
\sum\limits_xp(x|\mu) = \sum\limits_{k=1}^K\mu_k = 1 \tag{2.27}
$$
且
$$
\mathbb{E}[x|\mu] = \sum\limits_xp(x|\mu)x = (\mu_1,...,\mu_M)^T = \mu \tag{2.28}
$$
现在,考虑一个有$$ N $$个独立观测值$$ x_1,...,x_N $$的数据集$$ D $$。其对应的似然函数的形式为
$$
p(D|\mu) = \prod\limits_{n=1}^N\prod\limits_{k=1}^K\mu_k^{x_{nk}} = \prod\limits_{k=1}^K\mu_k^{(\sum_nx_{nk})} = \prod\limits_{k=1}^K\mu_k^{m_k} \tag{2.29}
$$
得到似然函数只通过$$ K $$个:
$$
m_k = \sum\limits_n x_{nk} \tag{2.30}
$$
依赖于$$ N $$个数据点。它表示观测到$$ x_k = 1 $$的次数。这些别称为这个分布的充分统计量(sufficient statistics)。
为了得到$$ \mu $$的最大似然解,我们需要在$$ \mu_k $$的和等于1的约束下,关于$$ \mu_k $$最大化$$ \ln p(D|\mu) $$。这可以通过拉格朗日乘数法得到,即:
$$
\sum\limits_{k=1}^{K}m_k\ln\mu_k + \lambda(\sum\limits_{k=1}^K\mu_k - 1 ) \tag{2.31}
$$
对公式(2.31)关于$$ \mu_k $$求导并使之等于0得到:
$$
\mu_k = -m_k / \lambda \tag{2.32}
$$
把公式(2.32)代入限制条件$$ \sum_k\mu_k = 1 $$,可得$$ \lambda = -N $$。所以我们的最大似然解:
$$
\mu_k^{ML} = \frac{m_k}{N} \tag{2.33}
$$
就是观测$$ x_k = 1 $$所占的比例。
考虑$$ m_1,...,m_K $$在参数$$ \mu $$和观测总数N条件下联合分布。通过公式(2.29)得到:
$$
Mult(m_1,...,m_k|\mu,N) = \binom{N}{m_1m_2...m_k}\prod\limits_{k=1}^K\mu_k^{m_k} \tag{2.34}
$$
这就是多项式分布(multinomial distribution)。标准化系数是把N个物体分成大小为$$ m_1,...,m_K $$的K组的方案总数,定义为
$$
\binom{N}{m_1m_2...m_k} = \frac{N!}{m_1!m_2!...m_k!} \tag{2.35}
$$
注意,$$ m_k $$满足下面的约束:
$$
\sum\limits_{k=1}^Km_k = N \tag{2.36}
$$