Podręcznik

2. Sieci wektorów nośnych SVM

Przedstawione wcześniej sieci neuronowe typu MLP i RBF stosujące w uczeniu minimalizację nieliniowej funkcji celu (błędu), mają wiele wad. Po pierwsze minimalizowana funkcja jest zwykle wielomodalna względem optymalizowanych parametrów, o wielu minimach lokalnych, w których może utknąć proces uczenia w zależności od punktu startowego. Po drugie algorytm uczący nie jest zwykle w stanie kontrolować skutecznie złożoności sieci, stąd przyjęta na wstępie architektura sieci neuronowej i związana z nią wartość VCdim decyduje o przyszłych zdolnościach generalizacyjnych sieci [68]. Nawet sieć RBF stosująca w uczeniu metodę ortogonalizacji ma ograniczenia wynikające z pogarszającego się uwarunkowania macierzy Greena przy dużej liczbie danych uczących i pewnej arbitralności w doborze wartości \( \rho \).

Ten wykład wprowadza nowe podejście do tworzenia struktury i definiowania problemu uczenia sieci neuronowej poprzez modyfikację sposobu uczenia jako takiego doboru wag sieci, aby uzyskać w klasyfikacji najszerszy margines separacji oddzielający skrajne (położone najbliżej siebie) punkty danych uczących obu klas. To zapewni optymalną zdolność generalizacji tak wytrenowanej sieci. Sieć tego typu nosi nazwę SVM (ang. Support Vector Machine). Jej podstawy zostały zdefiniowane przez prof. Vapnika [68] zarówno dla zadania klasyfikacji jak i regresji. Wykład przedstawia podstawy budowy algorytmów uczących obu rodzajów sieci SVM oraz dyskusję uzyskanych wyników.