Podręcznik
3. Zdolności generalizacyjne sieci neuronowych
3.2. Miara VCdim i jej związek z generalizacją
Problem optymalnego uczenia sieci polega na wyselekcjonowaniu struktury sieci i doboru jej parametrów w taki sposób, aby aproksymować wartości zadane  dla
 dla  z minimalnym błędem, i optymalnością definiowaną w sensie statystycznym. W teorii optymalnego uczenia kluczową rolę odgrywa pojęcie miary Vapnika-Chervonenkisa (VCdim), zdefiniowane dla sieci realizującej funkcję klasyfikatora.
 z minimalnym błędem, i optymalnością definiowaną w sensie statystycznym. W teorii optymalnego uczenia kluczową rolę odgrywa pojęcie miary Vapnika-Chervonenkisa (VCdim), zdefiniowane dla sieci realizującej funkcję klasyfikatora.
Miara VCdim została zdefiniowana dla sieci klasyfikacyjnej jako liczebność  największego zbioru danych wzorców, dla których system może zrealizować wszystkie możliwe
 największego zbioru danych wzorców, dla których system może zrealizować wszystkie możliwe  dychotomii tego zbioru (podział zbioru na dwie części za pomocą linii prostej). VCdim jest miarą pojemności lub zdolności sieci do realizacji funkcji klasyfikacyjnej wzorców. Miara VCdim odgrywa istotną rolę przy określaniu minimalnej liczby danych uczących
 dychotomii tego zbioru (podział zbioru na dwie części za pomocą linii prostej). VCdim jest miarą pojemności lub zdolności sieci do realizacji funkcji klasyfikacyjnej wzorców. Miara VCdim odgrywa istotną rolę przy określaniu minimalnej liczby danych uczących  , gdyż dla uzyskania dobrej generalizacji powinien być spełniony warunek
, gdyż dla uzyskania dobrej generalizacji powinien być spełniony warunek  .
.
Zostało dowiedzione, że dla sieci jednowarstwowej o jednym neuronie wyjściowym i  wejściach miara
 wejściach miara  jest równa
 jest równa  , czyli równa liczbie połączeń wagowych z uwzględnieniem polaryzacji. Dla sieci jednowyjściowej (jeden neuron wyjściowy) zawierającej jedną warstwę ukrytą i skokowej funkcji aktywacji neuronów miara
, czyli równa liczbie połączeń wagowych z uwzględnieniem polaryzacji. Dla sieci jednowyjściowej (jeden neuron wyjściowy) zawierającej jedną warstwę ukrytą i skokowej funkcji aktywacji neuronów miara  jest równa także
 jest równa także  . Dla sieci o dowolnej liczbie warstw ukrytych i skokowej funkcji aktywacji miara
. Dla sieci o dowolnej liczbie warstw ukrytych i skokowej funkcji aktywacji miara  jest proporcjonalna do
 jest proporcjonalna do  , gdzie
, gdzie  jest całkowitą liczbą wag sieci. Zastosowanie sigmoidalnej funkcji aktywacji zwiększa tę miarę do wartości proporcjonalnej do
 jest całkowitą liczbą wag sieci. Zastosowanie sigmoidalnej funkcji aktywacji zwiększa tę miarę do wartości proporcjonalnej do  . Dla porównania, w sieci liniowej o liczbie wag
. Dla porównania, w sieci liniowej o liczbie wag  miara
 miara  jest proporcjonalna do liczby wag. Jak z powyższego widać niezależnie od zastosowanej funkcji aktywacji neuronów w sieci MLP miara
 jest proporcjonalna do liczby wag. Jak z powyższego widać niezależnie od zastosowanej funkcji aktywacji neuronów w sieci MLP miara  jest zawsze skończona i uzależniona od liczby wag.
 jest zawsze skończona i uzależniona od liczby wag.
Jeżeli przez  oznaczymy prawdopodobieństwo wystąpienia błędu na zbiorze danych uczących (względny błąd klasyfikacji dla danych uczących) a przez
 oznaczymy prawdopodobieństwo wystąpienia błędu na zbiorze danych uczących (względny błąd klasyfikacji dla danych uczących) a przez  - prawdopodobieństwo wystąpienia błędnej klasyfikacji w przyszłym użytkowaniu sieci na danych nie uczestniczących w uczeniu (testowanie) to istotnym problemem jest oszacowanie spodziewanego błędu na tych danych, zwłaszcza jego górnej granicy. Zostało udowodnione, że prawdopodobieństwo wystąpienia błędu testowania większego o wartość
 - prawdopodobieństwo wystąpienia błędnej klasyfikacji w przyszłym użytkowaniu sieci na danych nie uczestniczących w uczeniu (testowanie) to istotnym problemem jest oszacowanie spodziewanego błędu na tych danych, zwłaszcza jego górnej granicy. Zostało udowodnione, że prawdopodobieństwo wystąpienia błędu testowania większego o wartość  od błędu uczenia dla sieci MLP jest określone wzorem [24,68]
 od błędu uczenia dla sieci MLP jest określone wzorem [24,68]
|   | (3.1) | 
w którym  oznacza prawdopodobieństwo,
 oznacza prawdopodobieństwo,  i
 i  – prawdopodobieństwo popełnienia błędu klasyfikacyjnego (przez sieć o wagach określonych wektorem
 – prawdopodobieństwo popełnienia błędu klasyfikacyjnego (przez sieć o wagach określonych wektorem  na danych odpowiednio testujących i uczących,
 na danych odpowiednio testujących i uczących,  - liczbę danych uczących,
 - liczbę danych uczących,  - podstawę logarytmu naturalnego a
 - podstawę logarytmu naturalnego a  - aktualne oszacowanie miary
 - aktualne oszacowanie miary  . Funkcja wykładnicza
. Funkcja wykładnicza  
  wskazuje, że wraz ze wzrostem liczby danych uczących prawdopodobieństwo wystąpienia błędu klasyfikacji ma niższą wartość ograniczenia górnego. Przy skończonej wartości
 wskazuje, że wraz ze wzrostem liczby danych uczących prawdopodobieństwo wystąpienia błędu klasyfikacji ma niższą wartość ograniczenia górnego. Przy skończonej wartości  i liczbie wzorców uczących dążącej do nieskończoności prawdopodobieństwo popełnienia tego błędu dąży do zera. Jeśli przez
 i liczbie wzorców uczących dążącej do nieskończoności prawdopodobieństwo popełnienia tego błędu dąży do zera. Jeśli przez  oznaczymy prawdopodobieństwo wystąpienia zdarzenia
 oznaczymy prawdopodobieństwo wystąpienia zdarzenia  wtedy z prawdopodobieństwem
 wtedy z prawdopodobieństwem  można stwierdzić, że
 można stwierdzić, że  . Na podstawie tych zależności otrzymuje się
. Na podstawie tych zależności otrzymuje się
|   | (3.2) | 
| ![\varepsilon_0(p, h, \alpha)=\sqrt{\frac{h}{p}\left[\lg \left(\frac{2 p}{h}\right)+1\right]-\frac{1}{p} \lg (\alpha)}   \varepsilon_0(p, h, \alpha)=\sqrt{\frac{h}{p}\left[\lg \left(\frac{2 p}{h}\right)+1\right]-\frac{1}{p} \lg (\alpha)}](https://esezam.okno.pw.edu.pl/filter/tex/pix.php/c9d7a9a1fbcd251750c87994f17c1c4e.gif)  | (3.3) | 
Wartość  określa przedział ufności odpowiadający prawdopodobieństwu
 określa przedział ufności odpowiadający prawdopodobieństwu  na zbiorze danych uczących przy
 na zbiorze danych uczących przy  danych i aktualnej mierze
 danych i aktualnej mierze  . Oszacowanie
. Oszacowanie  odpowiada najgorszemu przypadkowi. Przy małej wymaganej w praktyce wartości
 odpowiada najgorszemu przypadkowi. Przy małej wymaganej w praktyce wartości  oszacowanie powyższe można znacznie uściślić. W takim przypadku z prawdopodobieństwem
 oszacowanie powyższe można znacznie uściślić. W takim przypadku z prawdopodobieństwem  można stwierdzić, że [24]
 można stwierdzić, że [24]
|   | (3.4) | 
gdzie
|   | (3.5) | 
W tym przypadku przedział ufności zależy również od błędu uczenia  . Przy pomijalnej wartości błędu uczenia
. Przy pomijalnej wartości błędu uczenia  wartość
 wartość  upraszcza się do wyrażenia
 upraszcza się do wyrażenia
|   | (3.6) | 
w której przedział ufności  określony jest zależnością (3.3) i jest funkcją jedynie parametrów
 określony jest zależnością (3.3) i jest funkcją jedynie parametrów  . W świetle teorii generalizacji można stwierdzić, że z prawdopodobieństwem
. W świetle teorii generalizacji można stwierdzić, że z prawdopodobieństwem  przy liczbie danych uczących
 przy liczbie danych uczących  (
 ( – aktualna wartość miary
 – aktualna wartość miary  ) błąd generalizacji będzie mniejszy niż wartość gwarantowana
 ) błąd generalizacji będzie mniejszy niż wartość gwarantowana  określona wzorem
 określona wzorem  
w którym wartość  jest w ogólności zdefiniowana zależnością (3.5), lub przy bardzo małej wartości błędu uczenia
 jest w ogólności zdefiniowana zależnością (3.5), lub przy bardzo małej wartości błędu uczenia  wzorem (3.6).
 wzorem (3.6).
Na rys. 3.1 przedstawiono typowe zależności błędu uczenia, gwarantowanego ograniczenia górnego błędu generalizacji oraz przedziału ufności w funkcji miary VCdim.

 dla sieci MLP
 dla sieci MLPDla wartości  mniejszej niż wartość optymalna
 mniejszej niż wartość optymalna  pojemność sieci jest zbyt mała dla prawidłowego odwzorowania szczegółów danych uczących i stąd górne ograniczenie błędu generalizacji jest na wysokim poziomie. Dla
 pojemność sieci jest zbyt mała dla prawidłowego odwzorowania szczegółów danych uczących i stąd górne ograniczenie błędu generalizacji jest na wysokim poziomie. Dla  jest ona z kolei zbyt duża i dlatego błąd generalizacji również rośnie. Osiągnięcie punktu optymalnego (minimum błędu generalizacji) wymaga zwykle trenowania wielu sieci i wybrania tej, która zapewnia otrzymanie minimum gwarantowanego błędu.
  jest ona z kolei zbyt duża i dlatego błąd generalizacji również rośnie. Osiągnięcie punktu optymalnego (minimum błędu generalizacji) wymaga zwykle trenowania wielu sieci i wybrania tej, która zapewnia otrzymanie minimum gwarantowanego błędu.
Z wartością miary  oraz zadanym poziomem ufności
 oraz zadanym poziomem ufności  odpowiadającym prawdopodobieństwu
 odpowiadającym prawdopodobieństwu  związana jest reguła doboru liczby wzorców uczących wystarczających do uzyskania żądanej dokładności. Zgodnie z pracą [68] liczba próbek uczących powinna spełniać warunek
 związana jest reguła doboru liczby wzorców uczących wystarczających do uzyskania żądanej dokładności. Zgodnie z pracą [68] liczba próbek uczących powinna spełniać warunek
| ![p \geq \frac{A}{\varepsilon}[h \lg (1 / \varepsilon)+\lg (1 / \alpha)]   p \geq \frac{A}{\varepsilon}[h \lg (1 / \varepsilon)+\lg (1 / \alpha)]](https://esezam.okno.pw.edu.pl/filter/tex/pix.php/cb62c255ddf7d6b5c5940dec2b0ab2ec.gif)  | (3.7) | 
gdzie  jest bliżej nieokreśloną stałą. Z zależności powyższej widać, że liczba próbek uczących powinna być wielokrotnością miary
 jest bliżej nieokreśloną stałą. Z zależności powyższej widać, że liczba próbek uczących powinna być wielokrotnością miary  (określonej w tym wzorze symbolem
 (określonej w tym wzorze symbolem  ) i powinna wzrastać wraz ze zmniejszaniem się przedziału ufności. Według opinii Vapnika w klasycznym uczeniu sieci neuronowych dobrą generalizację obserwuje się, jeśli liczba danych uczących jest co najmniej 20 razy większa niż miara
) i powinna wzrastać wraz ze zmniejszaniem się przedziału ufności. Według opinii Vapnika w klasycznym uczeniu sieci neuronowych dobrą generalizację obserwuje się, jeśli liczba danych uczących jest co najmniej 20 razy większa niż miara  . Z drugiej strony należy zaznaczyć, że w wielu przypadkach można uzyskać dobre zdolności generalizacyjne sieci MLP przy dalece niewystarczającej liczbie danych uczących [68]. Świadczy to o skomplikowanym mechanizmie generalizacji i naszej niewystarczającej wiedzy teoretycznej w tym zakresie. Stąd wyprowadzone wcześniej oszacowania należy traktować jako ogólną wskazówkę postępowania przy budowie struktury sieci, zmuszającą do maksymalnej redukcji jej stopnia złożoności, przy zapewnieniu akceptowalnego poziomu błędu uczenia.
. Z drugiej strony należy zaznaczyć, że w wielu przypadkach można uzyskać dobre zdolności generalizacyjne sieci MLP przy dalece niewystarczającej liczbie danych uczących [68]. Świadczy to o skomplikowanym mechanizmie generalizacji i naszej niewystarczającej wiedzy teoretycznej w tym zakresie. Stąd wyprowadzone wcześniej oszacowania należy traktować jako ogólną wskazówkę postępowania przy budowie struktury sieci, zmuszającą do maksymalnej redukcji jej stopnia złożoności, przy zapewnieniu akceptowalnego poziomu błędu uczenia.
