1. Modele neuronów

1.3. Funkcja ReLU aktywacji neuronu

Model sigmoidalny wykorzystuje sigmoidę jako funkcję aktywacji neuronu. Jest to funkcja gładka, zachowując ciągłość również dla pierwszej pochodnej (element ważny w procesie optymalizacji). Cechą charakterystyczną tego modelu jest jego aktywny charakter tylko w ograniczonym zakresie wartości i wystąpienie stanu nasycenia poza tym zakresem. Daje to efekt stagnacji w procesie uczenia, spowalniając dojście do rozwiązania, zwłaszcza przy bardzo dużej liczbie optymalizowanych parametrów (sieci głębokie).

Dogłębne badania problemu wykazały, że ciągłość pochodnej w procesie optymalizacji nie jest warunkiem koniecznym. Dużo lepsze wyniki uzyskuje się stosując znacznie uproszczoną, odcinkami liniową postać funkcji aktywacji, eliminując stan nasycenia. Powszechnie stosowaną formą w sieciach głębokich jest funkcja ReLU (ang. Rectified Linear Unit), którą można zapisać w postaci [78]


 y(x) = \begin{cases} { \begin{matrix} x \textrm{ dla } x>0 \\ 0 \textrm{ dla } x \leq 0 \end{matrix} } \end{cases}
(1.11)

Jest to postać liniowa dla dodatnich wartości argumentu i zero dla wartości ujemnych. Pochodna tej funkcji jest równa 1 w zakresie dodatnim i zero dla wartości ujemnych argumentu. Współcześnie występuje wiele różnych modyfikacji tej funkcji. Więcej na ich temat będzie w rozdziale dotyczącym sieci głębokich.