Podręcznik
3. Zdolności generalizacyjne sieci neuronowych
3.2. Miara VCdim i jej związek z generalizacją
Problem optymalnego uczenia sieci polega na wyselekcjonowaniu struktury sieci i doboru jej parametrów w taki sposób, aby aproksymować wartości zadane dla z minimalnym błędem, i optymalnością definiowaną w sensie statystycznym. W teorii optymalnego uczenia kluczową rolę odgrywa pojęcie miary Vapnika-Chervonenkisa (VCdim), zdefiniowane dla sieci realizującej funkcję klasyfikatora.
Miara VCdim została zdefiniowana dla sieci klasyfikacyjnej jako liczebność największego zbioru danych wzorców, dla których system może zrealizować wszystkie możliwe dychotomii tego zbioru (podział zbioru na dwie części za pomocą linii prostej). VCdim jest miarą pojemności lub zdolności sieci do realizacji funkcji klasyfikacyjnej wzorców. Miara VCdim odgrywa istotną rolę przy określaniu minimalnej liczby danych uczących , gdyż dla uzyskania dobrej generalizacji powinien być spełniony warunek .
Zostało dowiedzione, że dla sieci jednowarstwowej o jednym neuronie wyjściowym i wejściach miara jest równa , czyli równa liczbie połączeń wagowych z uwzględnieniem polaryzacji. Dla sieci jednowyjściowej (jeden neuron wyjściowy) zawierającej jedną warstwę ukrytą i skokowej funkcji aktywacji neuronów miara jest równa także . Dla sieci o dowolnej liczbie warstw ukrytych i skokowej funkcji aktywacji miara jest proporcjonalna do , gdzie jest całkowitą liczbą wag sieci. Zastosowanie sigmoidalnej funkcji aktywacji zwiększa tę miarę do wartości proporcjonalnej do . Dla porównania, w sieci liniowej o liczbie wag miara jest proporcjonalna do liczby wag. Jak z powyższego widać niezależnie od zastosowanej funkcji aktywacji neuronów w sieci MLP miara jest zawsze skończona i uzależniona od liczby wag.
Jeżeli przez oznaczymy prawdopodobieństwo wystąpienia błędu na zbiorze danych uczących (względny błąd klasyfikacji dla danych uczących) a przez - prawdopodobieństwo wystąpienia błędnej klasyfikacji w przyszłym użytkowaniu sieci na danych nie uczestniczących w uczeniu (testowanie) to istotnym problemem jest oszacowanie spodziewanego błędu na tych danych, zwłaszcza jego górnej granicy. Zostało udowodnione, że prawdopodobieństwo wystąpienia błędu testowania większego o wartość od błędu uczenia dla sieci MLP jest określone wzorem [24,68]
(3.1) |
w którym oznacza prawdopodobieństwo, i – prawdopodobieństwo popełnienia błędu klasyfikacyjnego (przez sieć o wagach określonych wektorem na danych odpowiednio testujących i uczących, - liczbę danych uczących, - podstawę logarytmu naturalnego a - aktualne oszacowanie miary . Funkcja wykładnicza wskazuje, że wraz ze wzrostem liczby danych uczących prawdopodobieństwo wystąpienia błędu klasyfikacji ma niższą wartość ograniczenia górnego. Przy skończonej wartości i liczbie wzorców uczących dążącej do nieskończoności prawdopodobieństwo popełnienia tego błędu dąży do zera. Jeśli przez oznaczymy prawdopodobieństwo wystąpienia zdarzenia wtedy z prawdopodobieństwem można stwierdzić, że . Na podstawie tych zależności otrzymuje się
(3.2) |
(3.3) |
Wartość określa przedział ufności odpowiadający prawdopodobieństwu na zbiorze danych uczących przy danych i aktualnej mierze . Oszacowanie odpowiada najgorszemu przypadkowi. Przy małej wymaganej w praktyce wartości oszacowanie powyższe można znacznie uściślić. W takim przypadku z prawdopodobieństwem można stwierdzić, że [24]
(3.4) |
gdzie
(3.5) |
W tym przypadku przedział ufności zależy również od błędu uczenia . Przy pomijalnej wartości błędu uczenia wartość upraszcza się do wyrażenia
(3.6) |
w której przedział ufności określony jest zależnością (3.3) i jest funkcją jedynie parametrów . W świetle teorii generalizacji można stwierdzić, że z prawdopodobieństwem przy liczbie danych uczących ( – aktualna wartość miary ) błąd generalizacji będzie mniejszy niż wartość gwarantowana określona wzorem
w którym wartość jest w ogólności zdefiniowana zależnością (3.5), lub przy bardzo małej wartości błędu uczenia wzorem (3.6).
Na rys. 3.1 przedstawiono typowe zależności błędu uczenia, gwarantowanego ograniczenia górnego błędu generalizacji oraz przedziału ufności w funkcji miary VCdim.
Dla wartości mniejszej niż wartość optymalna pojemność sieci jest zbyt mała dla prawidłowego odwzorowania szczegółów danych uczących i stąd górne ograniczenie błędu generalizacji jest na wysokim poziomie. Dla jest ona z kolei zbyt duża i dlatego błąd generalizacji również rośnie. Osiągnięcie punktu optymalnego (minimum błędu generalizacji) wymaga zwykle trenowania wielu sieci i wybrania tej, która zapewnia otrzymanie minimum gwarantowanego błędu.
Z wartością miary oraz zadanym poziomem ufności odpowiadającym prawdopodobieństwu związana jest reguła doboru liczby wzorców uczących wystarczających do uzyskania żądanej dokładności. Zgodnie z pracą [68] liczba próbek uczących powinna spełniać warunek
(3.7) |
gdzie jest bliżej nieokreśloną stałą. Z zależności powyższej widać, że liczba próbek uczących powinna być wielokrotnością miary (określonej w tym wzorze symbolem ) i powinna wzrastać wraz ze zmniejszaniem się przedziału ufności. Według opinii Vapnika w klasycznym uczeniu sieci neuronowych dobrą generalizację obserwuje się, jeśli liczba danych uczących jest co najmniej 20 razy większa niż miara . Z drugiej strony należy zaznaczyć, że w wielu przypadkach można uzyskać dobre zdolności generalizacyjne sieci MLP przy dalece niewystarczającej liczbie danych uczących [68]. Świadczy to o skomplikowanym mechanizmie generalizacji i naszej niewystarczającej wiedzy teoretycznej w tym zakresie. Stąd wyprowadzone wcześniej oszacowania należy traktować jako ogólną wskazówkę postępowania przy budowie struktury sieci, zmuszającą do maksymalnej redukcji jej stopnia złożoności, przy zapewnieniu akceptowalnego poziomu błędu uczenia.