Podręcznik
2. Sieć perceptronu wielowarstwowego MLP
2.6. Dobór współczynnika uczenia
2.6 Dobór współczynnika uczenia
Po wyznaczeniu kierunku poszukiwań p konieczne jest jeszcze określenie wartości współczynnika uczenia η aby można było jednoznacznie wyznaczyć nowy punkt rozwiązania , spełniający warunek . Pożądany jest taki dobór aby nowy punkt rozwiązania leżał możliwie blisko minimum funkcji celu na kierunku . Właściwy dobór współczynnika ma ogromny wpływ na zbieżność algorytmu optymalizacyjnego. Im wartość bardziej odbiega od wartości, przy której funkcja celu osiąga minimum na danym kierunku , tym większa liczba iteracji jest potrzebna do wyznaczenia optymalnego rozwiązania. Przyjęcie zbyt małej wartości powoduje niewykorzystanie możliwości zminimalizowania wartości funkcji celu w danym kroku i konieczność jego powtórzenia w następnym. Zbyt duży krok powoduje ,,przeskoczenie" minimum funkcji i podobny efekt jak poprzednio. Istnieje wiele sposobów doboru wartości .
Najprostszy z nich (obecnie stosunkowo rzadko stosowany, głównie w uczeniu on-line) polega na przyjęciu stałej wartości w całym procesie optymalizacyjnym. Stosuje się go praktycznie tylko w połączeniu z metodą największego spadku. Jest to sposób mało efektywny, gdyż nie uzależnia wartości współczynnika uczenia od aktualnego wektora gradientu, a więc i kierunku w danej iteracji. Dobór wartości odbywa się zwykle oddzielnie dla każdej warstwy sieci przy wykorzystaniu różnych zależności empirycznych. Jednym z rozwiązań jest przyjęcie oszacowania minimalnej wartości tego współczynnika dla każdej warstwy w postaci
(2.21) |
gdzie oznacza liczbę wejść -tego neuronu w warstwie.
Inną bardziej skuteczną metodą doboru wartości współczynnika uczenia jest założenie ciągłej adaptacji, dopasowującej się do aktualnych zmian wartości funkcji celu w procesie uczenia. W metodzie tej na podstawie porównania wartości funkcji celu w -tej iteracji z jej poprzednią wartością, określa się strategię zmian wartości współczynnika uczenia. W celu przyspieszenia procesu uczenia w metodzie powinno się dążyć do ciągłego zwiększania wartości , jednocześnie sprawdzając, czy wartość funkcji błędu nie rośnie w porównaniu z błędem obliczanym przy starej wartości . Dopuszcza się przy tym nieznaczny wzrost wartości tego błędu w stosunku do wartości z poprzedniej iteracji. Jeżeli przez oraz oznaczymy wartość funkcji celu odpowiednio w oraz w -tej iteracji, a przez współczynniki uczenia w odpowiednich iteracjach, to w przypadku, gdy ( - dopuszczalny współczynnik wzrostu błędu) powinno nastąpić zmniejszenie wartości , zgodnie z zależnością [43]
(2.22) |
gdzie jest współczynnikiem zmniejszania wartości . W przeciwnym razie, gdy przyjmuje się
(2.23) |
gdzie αi jest współczynnikiem zwiększającym wartość . Mimo pewnego zwiększenia nakładu obliczeniowego (potrzebnego do wyznaczenia dodatkowej wartości ) możliwe jest istotne przyspieszenie procesu uczenia. Charakterystyczna jest przy tym postać zmian wartości tego współczynnika w czasie uczenia. Zwykle na starcie (przy bardzo małej wartości startowej ) dominuje proces jego zwiększania, po czym po osiągnięciu pewnego stanu quasi-ustalonego jego wartość zmienia się, cyklicznie, narastając i zmniejszając się w następujących po sobie cyklach. Należy jednak podkreślić, że metoda adaptacyjna doboru jest bardzo uzależniona od aktualnej postaci funkcji celu i wartości współczynników . Wartości optymalne przy jednej postaci funkcji mogą być dalekie od optymalnych przy zmianie postaci tej funkcji. Stąd w praktycznej realizacji tej metody należy uwzględnić mechanizmy kontroli i sterowania wartościami współczynników, dobierając je odpowiednio do specyfiki zadania.
Najefektywniejszy, choć zarazem najbardziej złożony, sposób doboru współczynnika uczenia polega na minimalizacji funkcji celu na wyznaczonym wcześniej kierunku . Należy tak dobrać skalarną wartość , aby nowe rozwiązanie odpowiadało minimum funkcji celu na tym kierunku . Zauważmy, że przy znanym kierunku jest to zadanie znalezienia minimum funkcji jednej zmiennej (). Wśród najpopularniejszych metod wyznaczania minimum kierunkowego można wyróżnić metody bez gradientowe i gradientowe. W metodach bez gradientowych korzysta się jedynie z informacji o wartościach funkcji celu i wyznacza jej minimum w wyniku kolejnych podziałów założonego na wstępie zakresu wektora . Przykładem takich metod są: metoda bisekcji, złotego podziału odcinka, metoda Fibonacciego czy lokalna aproksymacja funkcji celu przy użyciu wielomianu drugiego stopnia [14]. Jedną z najbardziej popularnych metod gradientowych jest aproksymacja funkcji celu przy użyciu wielomianu drugiego lub trzeciego stopnia. Do wyznaczenia jego współczynników wykorzystuje się zarówno informację o wartości aktualnej funkcji celu w dwu sąsiednich punktach jak i jej pochodnej (gradientu). Szczegóły dotyczące tych algorytmów można znaleźć w podręcznikach dotyczących optymalizacji.