1.激活函数

ReLU¶

R e L U (x) = (x)^{+} = m a x (0, x)

alt text

LeakyReLU (x) = {\begin{cases} x, & if x \geq 0 \\ negative_slope \times x, & otherwise \end{cases}

LeakyReluPic

Leaky RelU的小于零部分的斜率可以学习。

f (x) = {\begin{cases} x & if x > 0 \\ α_{i} x & if x \leq 0 \end{cases}

f (x) = {\begin{cases} x & if x > 0 \\ α (\exp (x) - 1) & if x \leq 0 \end{cases}

alt text

在特定条件下，实现自归一化。避免梯度消失/爆炸，可以训练非常深的网络。

f (x) = λ {\begin{cases} x & if x > 0 \\ α (\exp (x) - 1) & if x \leq 0 \end{cases}

alt text

即x乘上一个sigmoid函数。

f (x) = x \cdot σ (x) = \frac{x}{1 + \exp (- x)}

alt text

关键在于高斯分布的累积分布函数（CDF）。利用 $G E L U (x) = x * Φ (x)$ alt text

σ (x) = \frac{1}{1 + e^{- x}}

SigmoidPic

当使用Sigmoid激活函数时，反向传播过程中会出现"梯度消失"。Sigmoid函数在输入值较大或较小时，其导数接近于0。当我们计算误差从输出层向输入层传播时，每经过一层都要乘以该层激活函数的导数。如果网络层数很多，这些小于1的导数值会不断相乘，导致最终传递到前面层的梯度变得极小，几乎为零。这使得它们的权重几乎不会更新，网络前面的层几乎无法学习。
此外，函数不是以零为中心的，这会导致训练过程中的收敛速度较慢。由于上一层sigmoid出来都是正数，所以在反向传播时，权重只能同加同减。

假设当前权重是 (w1, w2) = (1, 1)。而理想的最优权重是(w1_opt, w2_opt) = (3, -1)。且梯度更新规则不允许在一个步骤中同时增大 w1和减小w2，所以迭代次数需要很多次。

\tanh (x) = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}

alt text

非线性，但是所有概率都在0，1之间，且总和为1。

Softmax (x_{i}) = \frac{\exp (x_{i})}{\sum_{j} \exp (x_{j})}

距离或成本最小化：当需要基于距离或成本进行软选择时，Softmin 可以赋予较小值更高的权重

Softmax (x_{i}) = \frac{\exp ({-x}_{i})}{\sum_{j} \exp ({-x}_{j})}

在反向传播时， $LogSoftmax$ 往往更加稳定。

LogSoftmax (x_{i}) = l o g (\frac{\exp (x_{i})}{\sum_{j} \exp (x_{j})})