现在我们考虑把Fisher判别式推广到$$ K > 2 $$个类别的情况,并假设输入空间的维数$$ D $$大于类别的数量$$ K $$。下面,我们引入$$ D' > 1 $$个线性“特征”$$ y_k = w_k^Tx k=1,...,D' $$。这些特征值可以很方便的组合成向量$$ y $$的形式。同样的,权向量$$ {w_k} $$可以看成矩阵$$ W $$的列,即
$$
y = W^Tx \tag{4.39}
$$
再次提醒,我们没有把任何偏置参数包含在$$ y $$的定义中。把类内部协方差矩阵(4.28)推广到$$ K $$个分类的情形,得到
$$
S_W = \sum\limits_{k=1}^KS_k \tag{4.40}
$$
其中
$$
\begin{eqnarray}
S_k &=& \sum\limits_{n \in C_k}(x_n - m_k)(x_n - m_k)^T \tag{4.41} \\
m_k &=& \frac{1}{N_k}\sum\limits_{n \in C_k}x_n \tag{4.42}
\end{eqnarray}
$$
$$ N_k $$是类$$ C_k $$的模式数量。为了找到类间协方差矩阵的推广,我是使用Duda and Hart (1973)方法,首先考虑整体协方差矩阵:
$$
S_T = \sum\limits_{n=1}^N(x_n - m)(x_n - m)^T \tag{4.43}
$$
其中$$ m $$是整个数据集的均值
$$
m=\frac{1}{N}\sum\limits_{n=1}^Nx_n = \frac{1}{N}\sum\limits_{k=1}^KN_km_k \tag{4.44}
$$
$$ N = \sum_kN_k $$是数据的总数。整体协方差矩阵可以分解成式(4.40)(4.41)给出的类间协方差矩阵加上一个类间协方差矩阵$$ S_B $$
$$
S_T = S_W + S_B \tag{4.45}
$$
其中
$$
S_B = \sum\limits_{k=1}^KN_k(m_k - m)(m_k - m)^T \tag{4.46}
$$
这些协方差矩阵是定义在原来的$$ x $$空间中的。现在可以定义投影的$$ D' $$维$$ y $$矩阵中的类似矩阵
$$
s_W = \sum\limits_{k=1}^K\sum\limits_{n \in C_k}(y_n - \mu_k)(y_n - \mu_k)^T \tag{4.47}
$$
和
$$
s_B = \sum\limits_{k=1}^KN_k(\mu_k - \mu)(\mu_k - \mu)^T \tag{4.48}
$$
其中
$$
\mu_k = \frac{1}{N_k}\sum\limits_{n \in C_k}y_n , \mu = \frac{1}{N}\sum\limits_{k=1}^KN_k\mu_k \tag{4.49}
$$
同样的,我们想构造一个当类间协方差较大,且类内协方差较小时,值比较大的标量。这样的判别准则有很多选择(Fukunaga, 1990)。其中一个例子是
$$
J(W) = Tr\left{s_W^{-1}s_B\right} \tag{4.50}
$$
这个判别准则可以写成投影矩阵$$ W $$的显式函数
$$
J(w) = Tr\left{(WS_WW^T)^{-1}(WS_WW^T)\right} \tag{4.51}
$$
最大化这个判别准则虽然有点繁琐,但还是很直接的,详细的推导可以参考Fukunaga (1990)。权值由$$ S_W^{−1}S_B $$的对应$$ D′ $$个最大的特征值的特征向量确定。
所有的这些判别准则都有一个很重要的结果。首先,我们注意式(4.46)中$$ S_B $$是由$$ K $$个两个向量的外积得到的秩为1的矩阵的和组成,
此外,由于式(4.44)给出的限制条件,这些矩阵中只有$$ (K − 1) $$个是相互独立的,所以$$ S_B $$的秩最大等于$$ (K − 1) $$,因此最多有$$ (K − 1) $$个非零特征值。这表明,向由$$ S_B $$的特征值所生成的$$ (K − 1) $$维子空间上的投影不改变$$ J(W) $$的值,这意味这我们不可能找到多于$$ (K − 1) $$个线性“特征”(Fukunaga, 1990)。