摘要 目录
第一周:深度学习的实用层面 目录
1.1. 深度学习的训练 目录
1.2. 偏差与方差 目录
高偏差与高方差的例子:
用紫色线画出的分类器具有高偏差和高方差,高偏差:它几乎是一条线性分类器,并未拟合数据;高方差:曲线中间部分灵活性非常高,却过度拟合了两个错误样本
1.2.1. 调整偏差与方差 目录
1.3. 正则化 目录
1.3.1. 正则化防止过拟合的原因 目录
1.3.2. dropout正则化 目录
1.3.3. 理解dropout 目录
1.3.4. 其他正则化方法 目录
1.3.4.1. 扩增训练数据 目录
1.3.4.2. Early stopping 目录
1.4. 加速训练 目录
1.4.1. 加速训练方法一:正则化输入 目录
1.4.2. 梯度消失/爆炸 目录
1.4.2.1. 解决方法:权重矩阵初始化 目录
1.5. 梯度检查 目录
1.5.1. 梯度逼近 目录
1.5.2. 实施过程 目录
第二周:优化算法 目录
2.1. Mini-batch梯度下降方法 目录
2.1.1. 什么是Mini-batch 目录
2.1.2. 理解Mini-batch 目录
2.2. 指数加权平均 目录
2.2.1. 什么是指数加权平均 目录
2.2.2. 理解指数加权平均 目录
2.2.3. 实施指数加权平均及其偏差修正 目录
2.3. Momentum梯度下降法 目录
SGD方法的一个缺点是其更新方向完全依赖于当前batch计算出的梯度,因而十分不稳定。Momentum算法借用了物理中的动量概念,它模拟的是物体运动时的惯性,即更新的时候在一定程度上保留之前更新的方向,同时利用当前batch的梯度微调最终的更新方向。这样一来,可以在一定程度上增加稳定性,从而学习地更快,并且还有一定摆脱局部最优的能力
2.4. RMSprp梯度下降法 目录
对于上图所示的梯度下降情景,我们希望对于震荡比较大的方向,即b方向,减缓它的梯度下降的速度,而对于于震荡比较小的方向,即w方向,加快它的梯度下降的速度
总而言之,就通过震荡程度来缩放当前的梯度下降速度,震荡程度与缩放程度成反比,即若震荡越强,则缩放程度越小(减缓),若震荡越弱,则缩放程度越大(加快)
那么如何实现呢?
如果可以定义出一个统计量来定量描述某一方向上的震荡程度,则可以将当前计算出来的实际梯度除以这个统计量,使得满足反比的要求
我们很容易能想到,可以用统计学中的方差或标准差来定量描述这种震荡程度
2.5. Adam优化算法: Momentum + RMSprp 目录
2.6. 学习率衰减 目录
2.7. 解决局部最优问题 目录
当特征空间为低维时,的确容易出现多个不同的局部最优,但是在高维度的空间中,如果梯度为0,更有可能碰到鞍点,而不是碰到局部最优。
第三周:超参数调试、Batch正则化和程序框架 目录
3.1. 超参数调试 目录
3.1.1. 搜索超参数空间 目录
3.1.2. 为超参数选择合适的搜索尺牍(范围) 目录
3.1.3. 超参数训练的两大策略 目录
3.2. Batch正则化 目录
3.2.1. 正则化网络的激活函数 目录
3.2.2. 实施Batch归一化 目录
3.2.3. 将Batch Norm 拟合进神经网络 目录
3.2.4. 理解Batch Norm的作用 目录
3.2.5. Batch Norm在训练与测试中的不同操作 目录
3.3. softmax回归 目录
softmax神经网络训练