构建一个委员会的最简单的方法是对一组独立的模型的预测取平均。这样的方法的动机可以从频率学家的观点看出来。这种观点考虑偏置和方差之间的折中,它将模型的误差分解为偏置分量和方差分量,其中偏置分量产生于模型和真实的需要预测的函数之间的差异,方差分量表示模型对于单独的数据点的敏感性。回忆一下,根据图3.5,当我们使用正弦数据训练多个多项式函数,然后对得到的函数求平均时,来自方差项的贡献倾向于被抵消掉,从而产生了预测的提升。当我们对一组低偏置的模型(对应于高阶多项式)求平均时,我们得到的对用于生成数 据的正弦函数的精确的预测。
当然,在实际应用中,我们只有一个单独的数据集,因此我们必须寻找一种方式来表示委员 会中不同模型之间的变化性。一种方法是使用1.2.3节讨论的自助(bootstrap)数据集。考虑一个 回归问题,其中我们试图预测一个连续变量的值,并且假设我们生成了$$ M
这个方法被称为自助聚集(bootstrap aggregation)或者打包(bagging)(Breiman, 1996)。
假设我们试图预测的真实的回归函数为$$ h(x) $$,从而每个模型的输出可以写成真实值加上误差的形式,即
这样,平方和误差函数的形式为
其中$$ \mathbb{E}_x[\dot]
类似的,委员会方法的预测(14.7)的期望误差为
$$ \begin{eqnarray} E_{COM} &=& \mathbb{E}x\left[\left{\frac{1}{M}\sum\limits{m=1}^My_m(x) - h(x)\right}^2\right] \ &=& \mathbb{E}x\left[\left{\frac{1}{M}\sum\limits{m=1}^M\epsilon_m(x)\right}^2\right] \tag{14.11} \end{eqnarray} $$
如果我们假设误差的均值为0,且不具有相关性,即
那么我们有
这个显然具有戏剧性的结果表明,一个模型的平均误差可以仅仅通过对模型的$$ M