3. Zdolności generalizacyjne sieci neuronowych

3.2. Miara VCdim i jej związek z generalizacją

Problem optymalnego uczenia sieci polega na wyselekcjonowaniu struktury sieci i doboru jej parametrów w taki sposób, aby aproksymować wartości zadane d(xk) dla k=1,2,,p z minimalnym błędem, i optymalnością definiowaną w sensie statystycznym. W teorii optymalnego uczenia kluczową rolę odgrywa pojęcie miary Vapnika-Chervonenkisa (VCdim), zdefiniowane dla sieci realizującej funkcję klasyfikatora.

Miara VCdim została zdefiniowana dla sieci klasyfikacyjnej jako liczebność n największego zbioru danych wzorców, dla których system może zrealizować wszystkie możliwe 2n dychotomii tego zbioru (podział zbioru na dwie części za pomocą linii prostej). VCdim jest miarą pojemności lub zdolności sieci do realizacji funkcji klasyfikacyjnej wzorców. Miara VCdim odgrywa istotną rolę przy określaniu minimalnej liczby danych uczących p, gdyż dla uzyskania dobrej generalizacji powinien być spełniony warunek pVCdim.

Zostało dowiedzione, że dla sieci jednowarstwowej o jednym neuronie wyjściowym i N wejściach miara VCdim jest równa N+1, czyli równa liczbie połączeń wagowych z uwzględnieniem polaryzacji. Dla sieci jednowyjściowej (jeden neuron wyjściowy) zawierającej jedną warstwę ukrytą i skokowej funkcji aktywacji neuronów miara VCdim jest równa także N+1. Dla sieci o dowolnej liczbie warstw ukrytych i skokowej funkcji aktywacji miara VCdim jest proporcjonalna do nwlg(nw), gdzie nw jest całkowitą liczbą wag sieci. Zastosowanie sigmoidalnej funkcji aktywacji zwiększa tę miarę do wartości proporcjonalnej do n2w. Dla porównania, w sieci liniowej o liczbie wag nw miara VCdim jest proporcjonalna do liczby wag. Jak z powyższego widać niezależnie od zastosowanej funkcji aktywacji neuronów w sieci MLP miara VCdim jest zawsze skończona i uzależniona od liczby wag.

Jeżeli przez Pu oznaczymy prawdopodobieństwo wystąpienia błędu na zbiorze danych uczących (względny błąd klasyfikacji dla danych uczących) a przez Pt - prawdopodobieństwo wystąpienia błędnej klasyfikacji w przyszłym użytkowaniu sieci na danych nie uczestniczących w uczeniu (testowanie) to istotnym problemem jest oszacowanie spodziewanego błędu na tych danych, zwłaszcza jego górnej granicy. Zostało udowodnione, że prawdopodobieństwo wystąpienia błędu testowania większego o wartość ε od błędu uczenia dla sieci MLP jest określone wzorem [24,68]


P{supw|Pt(w)Pu(w)|ε}(2eph)heε2p (3.1)

w którym P oznacza prawdopodobieństwo, Pt i Pu – prawdopodobieństwo popełnienia błędu klasyfikacyjnego (przez sieć o wagach określonych wektorem w na danych odpowiednio testujących i uczących, p - liczbę danych uczących, e - podstawę logarytmu naturalnego a h - aktualne oszacowanie miary VCdim. Funkcja wykładnicza eε2p wskazuje, że wraz ze wzrostem liczby danych uczących prawdopodobieństwo wystąpienia błędu klasyfikacji ma niższą wartość ograniczenia górnego. Przy skończonej wartości h i liczbie wzorców uczących dążącej do nieskończoności prawdopodobieństwo popełnienia tego błędu dąży do zera. Jeśli przez α oznaczymy prawdopodobieństwo wystąpienia zdarzenia α=P(sup|Pt(w)Pu(w)|ε) wtedy z prawdopodobieństwem 1α można stwierdzić, że PtPu+ε. Na podstawie tych zależności otrzymuje się


α=(2eph)hexp(pε2) (3.2)

Wprowadźmy oznaczenie ε0(p,h,α)


ε0(p,h,α)=hp[lg(2ph)+1]1plg(α) (3.3)


Wartość ε0(p,h,α) określa przedział ufności odpowiadający prawdopodobieństwu α na zbiorze danych uczących przy p danych i aktualnej mierze VCdim=h. Oszacowanie PtPu+ε odpowiada najgorszemu przypadkowi. Przy małej wymaganej w praktyce wartości Pt oszacowanie powyższe można znacznie uściślić. W takim przypadku z prawdopodobieństwem (1α) można stwierdzić, że [24]


PtPu+ε1(p,h,α,Pu) (3.4)

gdzie


ε1(p,h,α,Pu)=2ε20(p,h,α)(1+1+Puε2(p,h,α)) (3.5)

W tym przypadku przedział ufności zależy również od błędu uczenia Pu. Przy pomijalnej wartości błędu uczenia Pu wartość ε1 upraszcza się do wyrażenia


ε1(p,h,α)=4ε20(p,h,α) (3.6)

w której przedział ufności ε0 określony jest zależnością (3.3) i jest funkcją jedynie parametrów p,h,α. W świetle teorii generalizacji można stwierdzić, że z prawdopodobieństwem (1α) przy liczbie danych uczących p>h (h – aktualna wartość miary VCdim ) błąd generalizacji będzie mniejszy niż wartość gwarantowana Pg określona wzorem  

Pg=Pu+ε1(p,h,α,Pu)

w którym wartość ε1 jest w ogólności zdefiniowana zależnością (3.5), lub przy bardzo małej wartości błędu uczenia Pu wzorem (3.6).

Na rys. 3.1 przedstawiono typowe zależności błędu uczenia, gwarantowanego ograniczenia górnego błędu generalizacji oraz przedziału ufności w funkcji miary VCdim.

Rys. 3.1 Zależności błędu uczenia, górnego ograniczenia błędu generalizacji (gwarantowanego maksymalnego błędu testowania) i przedziału ufności w funkcji miary VCdim dla sieci MLP


Dla wartości h mniejszej niż wartość optymalna hopt pojemność sieci jest zbyt mała dla prawidłowego odwzorowania szczegółów danych uczących i stąd górne ograniczenie błędu generalizacji jest na wysokim poziomie. Dla h>hopt  jest ona z kolei zbyt duża i dlatego błąd generalizacji również rośnie. Osiągnięcie punktu optymalnego (minimum błędu generalizacji) wymaga zwykle trenowania wielu sieci i wybrania tej, która zapewnia otrzymanie minimum gwarantowanego błędu.

Z wartością miary VCdim oraz zadanym poziomem ufności ε odpowiadającym prawdopodobieństwu α związana jest reguła doboru liczby wzorców uczących wystarczających do uzyskania żądanej dokładności. Zgodnie z pracą [68] liczba próbek uczących powinna spełniać warunek


pAε[hlg(1/ε)+lg(1/α)] (3.7)

gdzie A jest bliżej nieokreśloną stałą. Z zależności powyższej widać, że liczba próbek uczących powinna być wielokrotnością miary VCdim (określonej w tym wzorze symbolem h) i powinna wzrastać wraz ze zmniejszaniem się przedziału ufności. Według opinii Vapnika w klasycznym uczeniu sieci neuronowych dobrą generalizację obserwuje się, jeśli liczba danych uczących jest co najmniej 20 razy większa niż miara VCdim. Z drugiej strony należy zaznaczyć, że w wielu przypadkach można uzyskać dobre zdolności generalizacyjne sieci MLP przy dalece niewystarczającej liczbie danych uczących [68]. Świadczy to o skomplikowanym mechanizmie generalizacji i naszej niewystarczającej wiedzy teoretycznej w tym zakresie. Stąd wyprowadzone wcześniej oszacowania należy traktować jako ogólną wskazówkę postępowania przy budowie struktury sieci, zmuszającą do maksymalnej redukcji jej stopnia złożoności, przy zapewnieniu akceptowalnego poziomu błędu uczenia.