Podręcznik: Uwagi praktyczne

3. Perceptron wielowarstwowy

3.6. Uwagi praktyczne

Algorytmy gradientowe startują z pewnego losowego punktu, jednak punkt startowy może mieć wpływ na wynik działania algorytmu.

Nie powinniśmy ustawiać wszystkich wartości początkowych wag na zero, ponieważ wtedy w sieci powstanie symetria: aktywacje wszystkich neuronów na początku są takie same, wszystkie gradienty są takie same i wagi już zawsze będą takie same. W celu przełamania symetrii wagi sieci inicjalizuje się małymi wartościami losowymi. Wyrazy wolne można zainicjalizować zerami.

Parametrami sieci nazywamy wagi $w$ i wyrazy wolne $b$ , które dobierane są w procesie uczenia, za pomocą algorytmów gradientowych, na zbiorze uczącym.

Inne ustawienia nazywamy hiper-parametrami, należą do nich, między innymi:

liczba warstw,
liczba neuronów w warstwach,
liczba iteracji algorytmu gradientowego,
funkcje aktywacji,
wartość współczynnika uczenia.

Hiper-parametry dobieramy najczęściej eksperymentalnie na podstawie wartości funkcji straty lub innej metryki wyznaczanej dla zbioru walidacyjnego.

W praktycznych zastosowaniach należy mieć na uwadze następujące zagadnienia:

Sieci nie mają właściwości ekstrapolacyjnych. Oznacza to, że jeśli na wejście sieci podamy dane spoza zakresu wykorzystywanego w procesie uczenia (np. w danych uczących pewna cecha miała wartości z zakresu (0, 10) a teraz obserwujemy wartość 20) możemy dostać dowolnie bezsensowny wynik.
Dane uczące powinny być reprezentatywne dla całego zakresu zmienności wejść. Oznacza to, że przy modelowaniu procesów przemysłowych powinniśmy zgromadzić dane z różnych punków pracy.
Do budowy sieci o wielu parametrach potrzebujemy dużo danych. Wyjątek stanowi tu powtórne wykorzystanie sieci przeznaczonej do rozwiązywania podobnego problemu (transfer learning, rozdział 5.5).
Modelowane zjawiska (np. proces przemysłowy) zmieniają się w czasie - model będzie tracił dokładność. Dla zachowania dokładności konieczne jest ciągłe lub okresowe douczenie modelu. Nie jest to zagadnienie trywialne, ze względu na skłonność modeli do zapominania poprzednio zgromadzonej wiedzy.