大家好,我是小寒。
Sigmoid 激活函数
它表示为
- sigmoid 函数通常用于预测概率作为输出的模型。sigmoid 是此类问题的最佳选择,因为概率值介于 0 和 1 之间,与该函数的范围一致。
- 它既可微分又具有平滑的梯度,从其形状可以清楚地看出。
Sigmoid 激活函数的局限性:
梯度消失问题
从图中可以看出,梯度值在一定范围(-5.0 到 5.0)之间显着,并且随着进一步增大,图形变得更加平坦。这表明对于 > 5 或 < -5 的值,该函数将具有最小梯度并最终接近零。这就是神经网络停止学习的地方(梯度消失)。
Tanh/双曲激活函数
sigmoid 函数和双曲函数的区别在于后者的范围在-1到1之间。
它的优点是
- 输出以零为中心,因此输出值可以轻松映射为强负值、中性值和强正值。
- 它通常用在神经网络的隐藏层中,因为它的值在 -1 到 1 的范围内,因此数据的平均值接近 0。这有助于使数据居中并使下一层的学习更容易。
双曲激活函数的局限性
梯度消失问题
显然,与 sigmoid 函数类似,双曲函数也面临着梯度消失的问题。除此之外,tanh 函数的导数比 sigmoid 函数更陡。
ReLU激活函数
ReLU 激活函数的主要特点是它不会同时激活所有神经元。如果转换的输出小于 0,神经元就会失活。
它表示为
ReLU激活函数的优点
- ReLU 函数在计算上比 sigmoid 和 tanh 函数更高效,因为只有部分神经元被激活。
- 由于函数的非线性、非饱和特性,梯度下降向损失函数全局最小值的收敛速度会加快。
ReLU 激活函数的局限性
Leaky ReLU
参数化 ReLU
ELU
该激活函数也是 ReLU 激活函数的变体,其主要目标是修改函数负部分的斜率。与 Leaky ReLU 和 参数化 ReLU 不同,ELU 使用对数曲线来转换负值。
ELU 的优点
-
ELU 逐渐平滑,直到输出为 ,而 ReLU 则很尖锐。
-
通过引入负值的对数曲线来消除死亡 ReLU 问题,从而帮助神经网络将权重和偏差引导到正确的路径上。
ELU 激活函数的局限性
- 由于指数运算而增加了计算时间。
-
反向传播不涉及 参数的学习。
-
梯度爆炸问题,与梯度消失问题相反,随着反向传播算法的进行,梯度不断增加。因此,梯度的乘法变得巨大,导致梯度下降发散。模型无法学习,导致不稳定。
ELU 激活函数的导数如下
福利一
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/haskellbc/46106.html