Podręcznik
3. Zdolności generalizacyjne sieci neuronowych
3.2. Miara VCdim i jej związek z generalizacją
Problem optymalnego uczenia sieci polega na wyselekcjonowaniu struktury sieci i doboru jej parametrów w taki sposób, aby aproksymować wartości zadane dla
z minimalnym błędem, i optymalnością definiowaną w sensie statystycznym. W teorii optymalnego uczenia kluczową rolę odgrywa pojęcie miary Vapnika-Chervonenkisa (VCdim), zdefiniowane dla sieci realizującej funkcję klasyfikatora.
Miara VCdim została zdefiniowana dla sieci klasyfikacyjnej jako liczebność największego zbioru danych wzorców, dla których system może zrealizować wszystkie możliwe
dychotomii tego zbioru (podział zbioru na dwie części za pomocą linii prostej). VCdim jest miarą pojemności lub zdolności sieci do realizacji funkcji klasyfikacyjnej wzorców. Miara VCdim odgrywa istotną rolę przy określaniu minimalnej liczby danych uczących
, gdyż dla uzyskania dobrej generalizacji powinien być spełniony warunek
.
Zostało dowiedzione, że dla sieci jednowarstwowej o jednym neuronie wyjściowym i wejściach miara
jest równa
, czyli równa liczbie połączeń wagowych z uwzględnieniem polaryzacji. Dla sieci jednowyjściowej (jeden neuron wyjściowy) zawierającej jedną warstwę ukrytą i skokowej funkcji aktywacji neuronów miara
jest równa także
. Dla sieci o dowolnej liczbie warstw ukrytych i skokowej funkcji aktywacji miara
jest proporcjonalna do
, gdzie
jest całkowitą liczbą wag sieci. Zastosowanie sigmoidalnej funkcji aktywacji zwiększa tę miarę do wartości proporcjonalnej do
. Dla porównania, w sieci liniowej o liczbie wag
miara
jest proporcjonalna do liczby wag. Jak z powyższego widać niezależnie od zastosowanej funkcji aktywacji neuronów w sieci MLP miara
jest zawsze skończona i uzależniona od liczby wag.
Jeżeli przez oznaczymy prawdopodobieństwo wystąpienia błędu na zbiorze danych uczących (względny błąd klasyfikacji dla danych uczących) a przez
- prawdopodobieństwo wystąpienia błędnej klasyfikacji w przyszłym użytkowaniu sieci na danych nie uczestniczących w uczeniu (testowanie) to istotnym problemem jest oszacowanie spodziewanego błędu na tych danych, zwłaszcza jego górnej granicy. Zostało udowodnione, że prawdopodobieństwo wystąpienia błędu testowania większego o wartość
od błędu uczenia dla sieci MLP jest określone wzorem [24,68]
![]() |
(3.1) |
w którym oznacza prawdopodobieństwo,
i
– prawdopodobieństwo popełnienia błędu klasyfikacyjnego (przez sieć o wagach określonych wektorem
na danych odpowiednio testujących i uczących,
- liczbę danych uczących,
- podstawę logarytmu naturalnego a
- aktualne oszacowanie miary
. Funkcja wykładnicza
wskazuje, że wraz ze wzrostem liczby danych uczących prawdopodobieństwo wystąpienia błędu klasyfikacji ma niższą wartość ograniczenia górnego. Przy skończonej wartości
i liczbie wzorców uczących dążącej do nieskończoności prawdopodobieństwo popełnienia tego błędu dąży do zera. Jeśli przez
oznaczymy prawdopodobieństwo wystąpienia zdarzenia
wtedy z prawdopodobieństwem
można stwierdzić, że
. Na podstawie tych zależności otrzymuje się
![]() |
(3.2) |
![]() |
(3.3) |
Wartość określa przedział ufności odpowiadający prawdopodobieństwu
na zbiorze danych uczących przy
danych i aktualnej mierze
. Oszacowanie
odpowiada najgorszemu przypadkowi. Przy małej wymaganej w praktyce wartości
oszacowanie powyższe można znacznie uściślić. W takim przypadku z prawdopodobieństwem
można stwierdzić, że [24]
![]() |
(3.4) |
gdzie
![]() |
(3.5) |
W tym przypadku przedział ufności zależy również od błędu uczenia . Przy pomijalnej wartości błędu uczenia
wartość
upraszcza się do wyrażenia
![]() |
(3.6) |
w której przedział ufności określony jest zależnością (3.3) i jest funkcją jedynie parametrów
. W świetle teorii generalizacji można stwierdzić, że z prawdopodobieństwem
przy liczbie danych uczących
(
– aktualna wartość miary
) błąd generalizacji będzie mniejszy niż wartość gwarantowana
określona wzorem
w którym wartość jest w ogólności zdefiniowana zależnością (3.5), lub przy bardzo małej wartości błędu uczenia
wzorem (3.6).
Na rys. 3.1 przedstawiono typowe zależności błędu uczenia, gwarantowanego ograniczenia górnego błędu generalizacji oraz przedziału ufności w funkcji miary VCdim.


Dla wartości mniejszej niż wartość optymalna
pojemność sieci jest zbyt mała dla prawidłowego odwzorowania szczegółów danych uczących i stąd górne ograniczenie błędu generalizacji jest na wysokim poziomie. Dla
jest ona z kolei zbyt duża i dlatego błąd generalizacji również rośnie. Osiągnięcie punktu optymalnego (minimum błędu generalizacji) wymaga zwykle trenowania wielu sieci i wybrania tej, która zapewnia otrzymanie minimum gwarantowanego błędu.
Z wartością miary oraz zadanym poziomem ufności
odpowiadającym prawdopodobieństwu
związana jest reguła doboru liczby wzorców uczących wystarczających do uzyskania żądanej dokładności. Zgodnie z pracą [68] liczba próbek uczących powinna spełniać warunek
![]() |
(3.7) |
gdzie jest bliżej nieokreśloną stałą. Z zależności powyższej widać, że liczba próbek uczących powinna być wielokrotnością miary
(określonej w tym wzorze symbolem
) i powinna wzrastać wraz ze zmniejszaniem się przedziału ufności. Według opinii Vapnika w klasycznym uczeniu sieci neuronowych dobrą generalizację obserwuje się, jeśli liczba danych uczących jest co najmniej 20 razy większa niż miara
. Z drugiej strony należy zaznaczyć, że w wielu przypadkach można uzyskać dobre zdolności generalizacyjne sieci MLP przy dalece niewystarczającej liczbie danych uczących [68]. Świadczy to o skomplikowanym mechanizmie generalizacji i naszej niewystarczającej wiedzy teoretycznej w tym zakresie. Stąd wyprowadzone wcześniej oszacowania należy traktować jako ogólną wskazówkę postępowania przy budowie struktury sieci, zmuszającą do maksymalnej redukcji jej stopnia złożoności, przy zapewnieniu akceptowalnego poziomu błędu uczenia.