Podręcznik
2. Sieć perceptronu wielowarstwowego MLP
2.2. Struktura sieci wielowarstwowej MLP
Sieć wielowarstwową MLP tworzą neurony ułożone w warstwach połączonych kolejno między sobą, przy czym oprócz warstwy wejściowej i wyjściowej istnieje co najmniej jedna warstwa ukryta.
a) | |
b) |
Rys. 2.1 a) Ogólny schemat sieci neuronowej sigmoidalnej o dwu warstwach ukrytych, b) sieć o jednej warstwie ukrytej z oznaczeniem połączeń wagowych i polaryzacją
Na rys. 2.1b przedstawiono sieć o jednej warstwie ukrytej [46]. Połączenia międzyneuronowe występują jedynie między sąsiednimi warstwami (w kierunku od wejścia do wyjścia). Stosowane będą oznaczenia sygnałów i wag zgodnie z rysunkiem. Wagi neuronów warstwy ukrytej otrzymają wskaźnik górny (1), natomiast warstwy wyjściowej wskaźnik (2). Sygnały wyjściowe neuronów warstwy ukrytej oznaczone są symbolem , a warstwy wyjściowej symbol . Zakłada się, że funkcja aktywacji neuronów jest dana w postaci sigmoidalnej unipolarnej bądź bipolarnej. Dla uproszczenia oznaczeń przyjęte będzie rozszerzone oznaczenie wektora wejściowego sieci w postaci , w którym oznacza sygnał jednostkowy polaryzacji. Z wektorem są związane dwa wektory wyjściowe sieci: wektor aktualny oraz wektor zadany .
Celem uczenia jest określenie wartości wag oraz wszystkich warstw sieci w taki sposób, aby przy zadanym wektorze wejściowym uzyskać na wyjściu wartości sygnałów wektora odpowiadające z dostateczną dokładnością wartościom zadanym reprezentowanym przez wektor . Traktując jednostkowy sygnał polaryzujący jako jedną ze składowych wektora wejściowego , wagi polaryzacji można włączyć do wektora wag poszczególnych neuronów obu warstw. Przy takim oznaczeniu sygnał wyjściowy -tego neuronu warstwy ukrytej daje się opisać wzorem
(2.1) |
w której wskaźnik odpowiada sygnałowi oraz wagom polaryzacji. W przypadku warstwy wyjściowej -ty neuron wytwarza sygnał wyjściowy opisany następująco
(2.2) |
Powyższy wzór reprezentuje formułę tak zwanego uniwersalnego aproksymatora, gdyż definiuje jawną postać funkcji aproksymującej, realizowanej przez sieć. Jak wynika z zależności (2.2), na wartość sygnału wyjściowego mają wpływ wagi obu warstw, których właściwy dobór pozwala dopasować wartości funkcji aproksymującej do wielkości zadanych (, .