Podręcznik
2. Sieć perceptronu wielowarstwowego MLP
2.4. Generacja gradientu z użyciem grafów przepływu sygnałów
Algorytm propagacji wstecznej stanowi podstawowy etap w uczeniu gradientowym, gdyż pozwala w prosty sposób określić gradient minimalizowanej funkcji celu. Jest on uważany za jeden ze skuteczniejszych sposobów generacji pochodnej funkcji celu dla sieci wielowarstwowej. W metodzie tej dla uniknięcia bezpośredniego różniczkowania złożonej funkcji celu stosuje się graficzną reprezentację systemu za pomocą grafów przepływowych. Przykład symbolicznej reprezentacji sieci MLP o wejściach i neuronach wyjściowych za pomocą grafu przepływowego przedstawiono na rys. 2.2a. W grafie tym wyróżniona została gałąź liniowa o wadze łącząca węzeł o sygnale z węzłem o sygnale oraz gałąź nieliniowa określająca sygnał , w której w sieci MLP jest funkcją sigmoidalną.
W generacji gradientu metodą grafów wykorzystuje się zależności odnoszące się do wrażliwości systemu badanego metodą układów dołączonych. Z teorii systemów wiadomo [46], że wrażliwość układu rozumiana jako pochodna dowolnego sygnału w tym układzie względem wartości wag może być określona na podstawie znajomości sygnałów w grafie zwykłym (oznaczonym przez ) oraz grafie dołączonym (zwanym również grafem sprzężonym) oznaczonym przez . Graf jest zdefiniowany jak oryginalny graf , w którym kierunki wszystkich gałęzi zostały odwrócone. Opis liniowej gałęzi grafu i odpowiadającej jej gałęzi grafu dołączonego jest identyczny. W przypadku gałęzi nieliniowej , gdzie jest zmienną wejściową, odpowiadająca jej gałąź grafu staje się gałęzią zlinearyzowaną, o wzmocnieniu równym obliczonym dla aktualnego punktu pracy nieliniowego grafu . Graf dołączony reprezentuje więc system zlinearyzowany. Przykład grafu dołączonego do grafu oryginalnego sieci MLP z rys. 2.2a przedstawiono na rys. 2.2b. Dla obliczenia gradientu funkcji celu konieczne jest jeszcze odpowiednie pobudzenie grafu dołączonego.
Jak zostało pokazane, dla określenia gradientu należy sieć dołączoną (graf ) zasilić na zaciskach wyjściowych sieci oryginalnej (obecnie wejściowych) sygnałami wymuszającymi w postaci różnic między wartościami aktualnymi sygnałów wyjściowych a ich wartościami pożądanymi , jak to pokazano na rys. 2.3 b. Przy takim sposobie tworzenia grafu dołączonego każdy składnik wektora gradientu będzie określony na podstawie odpowiednich sygnałów grafu G oraz grafu dołączonego . W odniesieniu do wagi odpowiedni składnik gradientu będzie opisany wzorem
(2.6) |
w którym sygnał odnosi się do grafu systemu oryginalnego a do grafu systemu dołączonego. Należy podkreślić, że podane zależności odnoszą się do dowolnych systemów (liniowych, nieliniowych, rekurencyjnych itp.). Metodę wyznaczania gradientu zilustrujemy przykładem grafu sieci MLP o 2 wejściach, 2 neuronach ukrytych i dwu neuronach wyjściowych przedstawionym na rys. 2.3a [46].
W celu wyznaczenia wszystkich składników gradientu względem wag poszczególnych warstw sieci wykorzystany zostanie graf dołączony przedstawiony na rys. 2.3b. Pobudzenie grafu dołączonego stanowią różnice między wartościami aktualnymi sygnałów wyjściowych a wartościami zadanymi dla . Nieliniowe gałęzie grafu zastąpione zostały w grafie dołączonym pochodnymi , obliczonymi odpowiednio w odpowiednich punktach pracy dla każdej warstwy oddzielnie. Zauważmy, że jeśli funkcja aktywacji neuronów ma postać sigmoidalną unipolarną , wtedy jest określona bezpośrednio na podstawie znajomości wartości funkcji sigmoidalnej w punkcie pracy i nie wymaga żadnych dodatkowych obliczeń wartości funkcji. Wykorzystując wzór (2.6) można teraz określić poszczególne składowe wektora gradientu dla dowolnej wagi, zarówno w warstwie ukrytej jak i wyjściowej. Przykładowo
Jak wynika z tych sformułowań, ogólna postać wzoru określającego odpowiedni składnik gradientu jest (przy zachowaniu odpowiednich oznaczeń sygnałów) identyczna, niezależnie od tego, w której warstwie neuronów znajduje się odpowiednia waga. Jest to reguła bardzo prosta w zastosowaniach, wymagająca przy określeniu składowej gradientu znajomości tylko dwóch sygnałów: sygnału węzła, z którego waga startuje w grafie zwykłym oraz sygnału węzła, będącego punktem startowym wagi w grafie dołączonym. Pod tym względem stanowi ona regułę lokalną.