Podręcznik
1. Modele neuronów
1.3. Funkcja ReLU aktywacji neuronu
Model sigmoidalny wykorzystuje sigmoidę jako funkcję aktywacji neuronu. Jest to funkcja gładka, zachowując ciągłość również dla pierwszej pochodnej (element ważny w procesie optymalizacji). Cechą charakterystyczną tego modelu jest jego aktywny charakter tylko w ograniczonym zakresie wartości i wystąpienie stanu nasycenia poza tym zakresem. Daje to efekt stagnacji w procesie uczenia, spowalniając dojście do rozwiązania, zwłaszcza przy bardzo dużej liczbie optymalizowanych parametrów (sieci głębokie).
Dogłębne badania problemu wykazały, że ciągłość pochodnej w procesie optymalizacji nie jest warunkiem koniecznym. Dużo lepsze wyniki uzyskuje się stosując znacznie uproszczoną, odcinkami liniową postać funkcji aktywacji, eliminując stan nasycenia. Powszechnie stosowaną formą w sieciach głębokich jest funkcja ReLU (ang. Rectified Linear Unit), którą można zapisać w postaci [78]
(1.11) |
Jest to postać liniowa dla dodatnich wartości argumentu i zero dla wartości ujemnych. Pochodna tej funkcji jest równa 1 w zakresie dodatnim i zero dla wartości ujemnych argumentu. Współcześnie występuje wiele różnych modyfikacji tej funkcji. Więcej na ich temat będzie w rozdziale dotyczącym sieci głębokich.