《神经网络和深度学习》第五章——深度神经网络为何很难训练

不稳定的梯度问题

以上图为例,会出现:

  1. 消失的梯度问题
    当$\omega_i\sigma_i^{‘}$小于1时。由于一般初始权重在0附近,且使用sigmoid神经元,所以消失的梯度问题更容易出现。
    其实,即使权重很大,对于sigmoid函数而言,越大的权重会导致对应的sigmoid函数倒数越接近0,因此更容易梯度消失。

  2. 激增的梯度问题
    当$\omega_i\sigma_i^{‘}$大于1时。当初始权重很大时出现。

根本问题是因为前面层上的梯度是来自后面层上项的乘积。当存在过多的层次时,就出现了内在本质上的不稳定场景。
所以,如果我们使用标准的基于梯度的学习算法,在网络中的不同层就会出现按照不同学习速度学习的情况。