信息熵是用来衡量信息不确定性的指标,不确定性是一个事件出现不同结果的可能性。计算方法如下:
信息增益越大,划分就越好,信息不确定性降低,说明结果越可靠。
基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。
Gini增益跟信息增益类似,是父节点的基尼指数-子节点的基尼指数。
使用基尼指数进行划分得到是一个CART树(二叉树)。
每次随机选择m个样本,训练一个分类器hi,循环这个过程n次,得到n个分类器,然后用这个n个分类器分别预测结果,选择预测结果相同且出现次数最多的结果作为最终结果。
随机森林是bagging算法里面的代表。
算法流程
用弱学习器训练结果预测原数据集的标签,然后与原数据集的标签做差得到残差,然后用残差训练另一个弱学习器,重复此过程,直到收敛,然后聚合所有弱学习器得到最终的强学习器。
代替残差,用负梯度拟合基学习器。梯度方向,增加最大,负梯度方向,减小最大。
前面t-1的值已经确定,最小化$f_t(x_i)$就可以得到正则化项最小值。
找到增益最大
精确贪心算法时间复杂度高,用下面的近似算法替代。