Podręcznik
2. Sieci wektorów nośnych SVM
Przedstawione
wcześniej sieci neuronowe typu MLP i RBF stosujące w uczeniu
minimalizację nieliniowej funkcji celu (błędu), mają wiele wad.
Po pierwsze minimalizowana funkcja jest zwykle wielomodalna względem
optymalizowanych parametrów, o wielu minimach lokalnych, w których
może utknąć proces uczenia w zależności od punktu startowego. Po
drugie algorytm uczący nie jest zwykle w stanie kontrolować
skutecznie złożoności sieci, stąd przyjęta na wstępie
architektura sieci neuronowej i związana z nią wartość VCdim
decyduje o przyszłych zdolnościach generalizacyjnych sieci [68].
Nawet sieć RBF stosująca w uczeniu metodę ortogonalizacji ma
ograniczenia wynikające z pogarszającego się uwarunkowania
macierzy Greena przy dużej liczbie danych uczących i pewnej
arbitralności w doborze wartości .
Ten wykład wprowadza nowe podejście do tworzenia struktury i definiowania problemu uczenia sieci neuronowej poprzez modyfikację sposobu uczenia jako takiego doboru wag sieci, aby uzyskać w klasyfikacji najszerszy margines separacji oddzielający skrajne (położone najbliżej siebie) punkty danych uczących obu klas. To zapewni optymalną zdolność generalizacji tak wytrenowanej sieci. Sieć tego typu nosi nazwę SVM (ang. Support Vector Machine). Jej podstawy zostały zdefiniowane przez prof. Vapnika [68] zarówno dla zadania klasyfikacji jak i regresji. Wykład przedstawia podstawy budowy algorytmów uczących obu rodzajów sieci SVM oraz dyskusję uzyskanych wyników.