Podręcznik
1. Modele neuronów
1.1. Model McCullocha-Pittsa
Na podstawie działania rzeczywistej komórki nerwowej stworzono wiele modeli matematycznych, w których uwzględnione zostały w większym lub mniejszym stopniu własności rzeczywistej komórki nerwowej. Pierwszym takim rozwiązaniem był model McCullocha-Pittsa, generujący wynik . Na wynik składa się sumator wagowy sygnałów wejściowych oraz blok nieliniowy, realizujący funkcję aktywacji neuronu, w którym argumentem jest sygnał sumacyjny . Funkcja jest w modelu McCullocha opisana jest wzorem [24,46]
(1.1) |
Współczynniki występujące we wzorze (1.1) reprezentują wagi połączeń synaptycznych. Wartość dodatnia wagi oznacza synapsę pobudzającą, ujemna - hamującą, natomiast zerowa świadczy o braku połączenia między neuronem i-tym i j-tym.
Strategie uczenia
W adaptacji wartości wag neuronów stosuje się różne strategie [24,46]:
-
uczenie z nauczycielem, zwane również uczeniem pod nadzorem. (ang. supervised learning)
-
uczenie bez nauczyciela (ang. unsupervised learning)
-
uczenie ze wzmocnieniem (ang. reinforcement learning)
W trybie uczenia z nauczycielem przyjmuje się, że oprócz sygnałów wejściowych tworzących wektor x znane są również pożądane sygnały wyjściowe neuronu tworzące wektor (ang. destination), a dobór wag musi być przeprowadzony w taki sposób, aby aktualny sygnał wyjściowy neuronu był najbliższy wartości zadanej . Istotnym elementem procesu jest tu znajomość zadanej wartości sygnału wyjściowego neuronu.
W strategii uczenia bez nauczyciela dobór wag odbywa się na innych zasadach i wiąże się z wykorzystaniem bądź to konkurencji neuronów między sobą (strategia Winner Takes All - WTA lub Winner Takes Most – WTM), bądź korelacji sygnałów uczących (uogólnione metody hebbowskie). Tego typu rozwiązania stosuje się w zadaniach grupowania danych (na przykład w sieciach Kohonena) bądź w różnego rodzaju transformacjach liniowych bądź nieliniowych (transformacje PCA, LDA, ICA, BSS, itp.).
Strategia uczenia ze wzmocnieniem wykorzystuje interakcje agenta ze środowiskiem, ukierunkowaną na zmaksymalizowanie zwracanej nagrody. Wzmacnianie polega na odpowiedniej polityce zbierania danych o środowisku, wytrenowaniu sieci na podstawie tych danych i powtarzaniu procesu dla uzyskania najlepszych wyników (typowe zastosowania to różnego rodzaju gry). W każdej iteracji agent otrzymuje informację o aktualnym stanie procesu i nagrody, na podstawie której wybiera następną akcję, której celem jest zwiększenie skumulowanej nagrody.