Podręcznik

2. Metody oceny jakości rozwiązań

2.4. Obiektywna ocena zdolności generalizacyjnych systemu

12.4 Obiektywna ocena zdolności generalizacyjnych systemu

Rozwiązując w sposób maszynowy problem klasyfikacji lub regresji należy podzielić dostępny zbiór danych na podzbiór uczący, na którym dobierane są optymalne wartości parametrów układu oraz podzbiór testujący (weryfikujący) nie uczestniczący w uczeniu a służący sprawdzaniu zdolności generalizacyjnych wytrenowanego układu. Z punktu widzenia użytkownika najważniejsze są wyniki testowania (weryfikacji), gdyż one ilustrują przyszłe zachowanie się systemu na danych rzeczywistych uzyskanych on-line w badanym procesie.

Zwykle zbiór dostępnych danych dzieli się w proporcji zbliżonej do 2:1 lub 3:1, w której większa część służy do uczenia a pozostała do testowania systemu. Podział danych jest najczęściej losowy (np. przy użyciu funkcji randperm Matlaba). Wiąże się z tym problem losowości uzyskanych wyników testowania. Jednokrotny test może nie być reprezentatywny dla zwykłego działania systemu i przyjęcie jego wyników jako obiektywnych nie jest uzasadnione.

Zalecane jest wielokrotne powtórzenie procesu uczenia i testowania przy innym zestawie danych uczących i testujących. Wynik takiego testu jest średnią z wyników poszczególnych prób. W praktycznej implementacji tego podejścia są stosowane różne metody. Jedną z najczęściej stosowanych jest k-krotna walidacja krzyżowa (ang. k-cross validation) [46,65]. Dostępny zbiór danych dzieli się na k części (często k jest równe 10), spośród których (k-1) jest użyte w uczeniu a jedna część pozostawiona do testowania. Próby uczenia i testowania przeprowadza się k razy zmieniając za każdym razem podzbiór testujący. Wynik ostateczny testu jest średnią ze wszystkich k eksperymentów.

Tego typu podejście jest trudne do przeprowadzenia przy bardzo małej liczbie danych, gdyż powoduje nadmierne zubożenie danych uczących. W takim przypadku polecaną metodą jest zastosowanie strategii leave-one-out, w której zbiór testujący zawiera tylko jedną daną, pozostałe służą uczeniu. Proces uczenia i testowania powtarza się tyle razy ile jest danych, za każdym razem zmieniając daną testującą.

Innym możliwą odmianą strategii walidacji krzyżowej jest losowanie wielokrotne danych uczących i testujących z pełnego zbioru. Każda próba uczenia i testowania poprzedzona jest losowaniem zbioru uczącego i testującego ze zbioru pełnego. Proporcje danych uczących i testujących mogą być przy tym dowolne, ustalane przez projektanta systemu, najczęściej w proporcji 2:1. Wynik końcowej oceny jest średnią ze wszystkich prób. W tym rozwiązaniu część danych testujących powtarza się wprawdzie z próby na próbę, ale przy dużej liczbie przeprowadzonych prób nie ma to istotnego znaczenia w obiektywnej ocenie rozwiązania.