Skip to content

Latest commit

 

History

History
82 lines (54 loc) · 3 KB

fisher_discriminant_multiple_classes.md

File metadata and controls

82 lines (54 loc) · 3 KB

现在我们考虑把Fisher判别式推广到$$ K > 2 $$个类别的情况,并假设输入空间的维数$$ D $$大于类别的数量$$ K $$。下面,我们引入$$ D' > 1 $$个线性“特征”$$ y_k = w_k^Tx k=1,...,D' $$。这些特征值可以很方便的组合成向量$$ y $$的形式。同样的,权向量$$ {w_k} $$可以看成矩阵$$ W $$的列,即

$$ y = W^Tx \tag{4.39} $$

再次提醒,我们没有把任何偏置参数包含在$$ y $$的定义中。把类内部协方差矩阵(4.28)推广到$$ K $$个分类的情形,得到

$$ S_W = \sum\limits_{k=1}^KS_k \tag{4.40} $$

其中

$$ \begin{eqnarray} S_k &=& \sum\limits_{n \in C_k}(x_n - m_k)(x_n - m_k)^T \tag{4.41} \\ m_k &=& \frac{1}{N_k}\sum\limits_{n \in C_k}x_n \tag{4.42} \end{eqnarray} $$

$$ N_k $$是类$$ C_k $$的模式数量。为了找到类间协方差矩阵的推广,我是使用Duda and Hart (1973)方法,首先考虑整体协方差矩阵:

$$ S_T = \sum\limits_{n=1}^N(x_n - m)(x_n - m)^T \tag{4.43} $$

其中$$ m $$是整个数据集的均值

$$ m=\frac{1}{N}\sum\limits_{n=1}^Nx_n = \frac{1}{N}\sum\limits_{k=1}^KN_km_k \tag{4.44} $$

$$ N = \sum_kN_k $$是数据的总数。整体协方差矩阵可以分解成式(4.40)(4.41)给出的类间协方差矩阵加上一个类间协方差矩阵$$ S_B $$

$$ S_T = S_W + S_B \tag{4.45} $$

其中

$$ S_B = \sum\limits_{k=1}^KN_k(m_k - m)(m_k - m)^T \tag{4.46} $$

这些协方差矩阵是定义在原来的$$ x $$空间中的。现在可以定义投影的$$ D' $$维$$ y $$矩阵中的类似矩阵

$$ s_W = \sum\limits_{k=1}^K\sum\limits_{n \in C_k}(y_n - \mu_k)(y_n - \mu_k)^T \tag{4.47} $$

$$ s_B = \sum\limits_{k=1}^KN_k(\mu_k - \mu)(\mu_k - \mu)^T \tag{4.48} $$

其中

$$ \mu_k = \frac{1}{N_k}\sum\limits_{n \in C_k}y_n , \mu = \frac{1}{N}\sum\limits_{k=1}^KN_k\mu_k \tag{4.49} $$

同样的,我们想构造一个当类间协方差较大,且类内协方差较小时,值比较大的标量。这样的判别准则有很多选择(Fukunaga, 1990)。其中一个例子是

$$ J(W) = Tr\left{s_W^{-1}s_B\right} \tag{4.50} $$

这个判别准则可以写成投影矩阵$$ W $$的显式函数

$$ J(w) = Tr\left{(WS_WW^T)^{-1}(WS_WW^T)\right} \tag{4.51} $$

最大化这个判别准则虽然有点繁琐,但还是很直接的,详细的推导可以参考Fukunaga (1990)。权值由$$ S_W^{−1}S_B $$的对应$$ D′ $$个最大的特征值的特征向量确定。

所有的这些判别准则都有一个很重要的结果。首先,我们注意式(4.46)中$$ S_B $$是由$$ K $$个两个向量的外积得到的秩为1的矩阵的和组成,

此外,由于式(4.44)给出的限制条件,这些矩阵中只有$$ (K − 1) $$个是相互独立的,所以$$ S_B $$的秩最大等于$$ (K − 1) $$,因此最多有$$ (K − 1) $$个非零特征值。这表明,向由$$ S_B $$的特征值所生成的$$ (K − 1) $$维子空间上的投影不改变$$ J(W) $$的值,这意味这我们不可能找到多于$$ (K − 1) $$个线性“特征”(Fukunaga, 1990)。