Podręcznik
2. Sieć perceptronu wielowarstwowego MLP
2.4. Generacja gradientu z użyciem grafów przepływu sygnałów
Algorytm propagacji wstecznej stanowi podstawowy etap w uczeniu gradientowym, gdyż pozwala w prosty sposób określić gradient minimalizowanej funkcji celu. Jest on uważany za jeden ze skuteczniejszych sposobów generacji pochodnej funkcji celu dla sieci wielowarstwowej. W metodzie tej dla uniknięcia bezpośredniego różniczkowania złożonej funkcji celu stosuje się graficzną reprezentację systemu za pomocą grafów przepływowych. Przykład symbolicznej reprezentacji sieci MLP o wejściach i
neuronach wyjściowych za pomocą grafu przepływowego przedstawiono na rys. 2.2a. W grafie tym wyróżniona została gałąź liniowa o wadze
łącząca węzeł o sygnale
z węzłem o sygnale
oraz gałąź nieliniowa
określająca sygnał
, w której
w sieci MLP jest funkcją sigmoidalną.

W generacji gradientu metodą grafów wykorzystuje się zależności odnoszące się do wrażliwości systemu badanego metodą układów dołączonych. Z teorii systemów wiadomo [46], że wrażliwość układu rozumiana jako pochodna dowolnego sygnału w tym układzie względem wartości wag może być określona na podstawie znajomości sygnałów w grafie zwykłym (oznaczonym przez ) oraz grafie dołączonym (zwanym również grafem sprzężonym) oznaczonym przez
. Graf
jest zdefiniowany jak oryginalny graf
, w którym kierunki wszystkich gałęzi zostały odwrócone. Opis liniowej gałęzi grafu
i odpowiadającej jej gałęzi grafu dołączonego
jest identyczny. W przypadku gałęzi nieliniowej
, gdzie
jest zmienną wejściową, odpowiadająca jej gałąź grafu
staje się gałęzią zlinearyzowaną, o wzmocnieniu równym
obliczonym dla aktualnego punktu pracy nieliniowego grafu
. Graf dołączony reprezentuje więc system zlinearyzowany. Przykład grafu dołączonego
do grafu oryginalnego sieci MLP z rys. 2.2a przedstawiono na rys. 2.2b. Dla obliczenia gradientu funkcji celu konieczne jest jeszcze odpowiednie pobudzenie grafu dołączonego.
Jak zostało pokazane, dla określenia gradientu należy sieć dołączoną (graf ) zasilić na zaciskach wyjściowych sieci oryginalnej (obecnie wejściowych) sygnałami wymuszającymi w postaci różnic między wartościami aktualnymi sygnałów wyjściowych
a ich wartościami pożądanymi
, jak to pokazano na rys. 2.3 b. Przy takim sposobie tworzenia grafu dołączonego każdy składnik wektora gradientu będzie określony na podstawie odpowiednich sygnałów grafu G oraz grafu dołączonego
. W odniesieniu do wagi
odpowiedni składnik gradientu będzie opisany wzorem
![]() |
(2.6) |
w którym sygnał odnosi się do grafu
systemu oryginalnego a
do grafu
systemu dołączonego. Należy podkreślić, że podane zależności odnoszą się do dowolnych systemów (liniowych, nieliniowych, rekurencyjnych itp.). Metodę wyznaczania gradientu zilustrujemy przykładem grafu sieci MLP o 2 wejściach, 2 neuronach ukrytych i dwu neuronach wyjściowych przedstawionym na rys. 2.3a [46].


W celu wyznaczenia wszystkich składników gradientu względem wag poszczególnych warstw sieci wykorzystany zostanie graf dołączony przedstawiony na rys. 2.3b. Pobudzenie grafu dołączonego stanowią różnice między wartościami aktualnymi sygnałów wyjściowych
a wartościami zadanymi
dla
. Nieliniowe gałęzie
grafu
zastąpione zostały w grafie dołączonym
pochodnymi
, obliczonymi odpowiednio w odpowiednich punktach pracy dla każdej warstwy oddzielnie. Zauważmy, że jeśli funkcja aktywacji neuronów ma postać sigmoidalną unipolarną
, wtedy
jest określona bezpośrednio na podstawie znajomości wartości funkcji sigmoidalnej w punkcie pracy
i nie wymaga żadnych dodatkowych obliczeń wartości funkcji. Wykorzystując wzór (2.6) można teraz określić poszczególne składowe wektora gradientu
dla dowolnej wagi, zarówno w warstwie ukrytej jak i wyjściowej. Przykładowo
![]() |
![]() |
![]() |
![]() |
Jak wynika z tych sformułowań, ogólna postać wzoru określającego odpowiedni składnik gradientu jest (przy zachowaniu odpowiednich oznaczeń sygnałów) identyczna, niezależnie od tego, w której warstwie neuronów znajduje się odpowiednia waga. Jest to reguła bardzo prosta w zastosowaniach, wymagająca przy określeniu składowej gradientu znajomości tylko dwóch sygnałów: sygnału węzła, z którego waga startuje w grafie zwykłym oraz sygnału węzła, będącego punktem startowym wagi w grafie dołączonym. Pod tym względem stanowi ona regułę lokalną.