2. Sieć perceptronu wielowarstwowego MLP

2.2. Struktura sieci wielowarstwowej MLP

Sieć wielowarstwową MLP tworzą neurony ułożone w warstwach połączonych kolejno między sobą, przy czym oprócz warstwy wejściowej i wyjściowej istnieje co najmniej jedna warstwa ukryta.


a)
b)

Rys. 2.1 a) Ogólny schemat sieci neuronowej sigmoidalnej o dwu warstwach ukrytych,  b) sieć o jednej warstwie ukrytej z oznaczeniem połączeń wagowych i polaryzacją

Na rys. 2.1b przedstawiono sieć o jednej warstwie ukrytej [46]. Połączenia międzyneuronowe występują jedynie między sąsiednimi warstwami (w kierunku od wejścia do wyjścia). Stosowane będą oznaczenia sygnałów i wag zgodnie z rysunkiem. Wagi neuronów warstwy ukrytej otrzymają wskaźnik górny (1), natomiast warstwy wyjściowej wskaźnik (2). Sygnały wyjściowe neuronów warstwy ukrytej oznaczone są symbolem vj(j=1,2,,K), a warstwy wyjściowej symbol yj(j=1,2,,M). Zakłada się, że funkcja aktywacji neuronów jest dana w postaci sigmoidalnej unipolarnej bądź bipolarnej. Dla uproszczenia oznaczeń przyjęte będzie rozszerzone oznaczenie wektora wejściowego x sieci w postaci x=[x0,x1,x2,,xN]T, w którym x0=1 oznacza sygnał jednostkowy polaryzacji. Z wektorem x są związane dwa wektory wyjściowe sieci: wektor aktualny y=[y1,y2,,yM]T oraz wektor zadany d=[d1,d2,,dM]T.

Celem uczenia jest określenie wartości wag w(1)ij oraz w(2)ij wszystkich warstw sieci w taki sposób, aby przy zadanym wektorze wejściowym x uzyskać na wyjściu wartości sygnałów wektora y odpowiadające z dostateczną dokładnością wartościom zadanym reprezentowanym przez wektor d. Traktując jednostkowy sygnał polaryzujący jako jedną ze składowych wektora wejściowego x, wagi polaryzacji można włączyć do wektora wag poszczególnych neuronów obu warstw. Przy takim oznaczeniu sygnał wyjściowy i-tego neuronu warstwy ukrytej daje się opisać wzorem

vi=f(Nj=0w(1)ijxj) (2.1)


w której wskaźnik j=0 odpowiada sygnałowi oraz wagom polaryzacji. W przypadku warstwy wyjściowej k-ty neuron wytwarza sygnał wyjściowy opisany następująco

yk=f(Ki=0w(2)kivi)=f(Ki=0w(2)kif(Nj=0w(1)ijxj)) (2.2)


Powyższy wzór reprezentuje formułę tak zwanego uniwersalnego aproksymatora, gdyż definiuje jawną postać funkcji aproksymującej, realizowanej przez sieć. Jak wynika z zależności (2.2), na wartość sygnału wyjściowego mają wpływ wagi obu warstw, których właściwy dobór pozwala dopasować wartości funkcji aproksymującej do wielkości zadanych (x, d).